Los investigadores del MIT investigaron el comportamiento de escala de grandes modelos de lenguaje químico, centrándose tanto en los transformadores generativos de pretendencia (GPT) para química (ChemGPT) como en los campos de fuerza de redes neuronales gráficas (GNN). Introducen el concepto de escalamiento neuronal, donde el rendimiento de un modelo se caracteriza por leyes de escalamiento empírico, específicamente el escalamiento de pérdidas como una ley de potencia que depende de la cantidad de parámetros del modelo, el tamaño del conjunto de datos o los recursos. El estudio aborda los desafíos y oportunidades asociados con la ampliación de modelos químicos a gran escala, con el objetivo de proporcionar información sobre la asignación óptima de recursos para mejorar el daño previo al entrenamiento.
Para el modelado del lenguaje químico, los investigadores desarrollan ChemGPT, un modelo de estilo GPT-3 basado en GPT-Neo, con un tokenizador de cadenas integradas autorreferenciadas (SELFIES) para representar moléculas. El modelo está previamente entrenado con moléculas de PubChem y el estudio explora el efecto del conjunto de datos y el tamaño del modelo en la pérdida previa al entrenamiento.
Además de los modelos de lenguaje, Papergraph aborda redes neuronales de campos de fuerza (GNN) para tareas que requieren geometría molecular y estructura tridimensional. Se consideran cuatro tipos de GNN, desde modelos con capas internas que utilizan solo cantidades invariantes E(3) hasta cantidades equivalentes E(3) con arquitecturas de modelos conscientes de la física. Los autores evaluaron la capacidad de estos GNN, definidos en términos de profundidad y ancho, durante experimentos de escala neuronal.
Para manejar de manera eficiente la optimización de hiperparámetros (HPO) para modelos químicos profundos, el artículo presenta una técnica llamada estimación del rendimiento del entrenamiento (TPE), aplicándola a un método utilizado en arquitecturas de visión por computadora. TPE utiliza el impulso del entrenamiento para estimar el rendimiento en diferentes dominios y tamaños de modelos/conjuntos de datos. El documento detalla las configuraciones experimentales, incluido el uso de GPU NVIDIA Volta V100, PyTorch y aceleración de datos distribuidos en paralelo para la implementación y el entrenamiento del modelo.
En general, el estudio proporciona una exploración integral del escalado neuronal en el contexto de grandes modelos de lenguaje químico, considerando tanto transformadores preentrenados generados como campos de fuerza de redes neuronales gráficas, y un enfoque eficiente para la optimización de hiperparámetros. Los resultados y los conocimientos experimentales ayudan a comprender la eficiencia de los recursos de diferentes arquitecturas de modelos en aplicaciones científicas de aprendizaje profundo.
Mira eso papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. Nuestro subreddit de más de 33.000 ml, Más de 41.000 comunidades de Facebook, Descubrir canaly Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.
Si te gusta nuestro trabajo, te gustará nuestro boletín.
Nosotros también Telegrama Y WhatsApp.
Pragati Junjhunwala es consultora de Internet en MarktechPost. Actualmente está cursando B.Tech en el Instituto Indio de Tecnología (IIT), Kharagpur. Es una entusiasta de la tecnología y tiene un gran interés en el campo del software y las aplicaciones de ciencia de datos. Siempre está leyendo sobre novedades en diversos campos de la IA y el aprendizaje automático.
🔥 Únase al boletín informativo sobre empresas emergentes de IA para conocer las últimas empresas emergentes de IA