Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

FGBench: Un conjunto de datos y punto de referencia para el razonamiento de propiedades moleculares a nivel de grupo funcional en modelos de lenguaje grandes

Created by
  • Haebom

Autor

Xuan Liu, Siru Ouyang, Xianrui Zhong, Jiawei Han, Huimin Zhao

Describir

Este artículo presenta FGBench, un novedoso conjunto de datos que contiene 625.000 problemas de inferencia de características moleculares, cuyo objetivo es mejorar el rendimiento de los modelos de lenguaje a gran escala (LLM) aprovechando la información de grupos funcionales (GF) en química. FGBench anota y localiza con precisión los grupos funcionales dentro de las moléculas, reforzando la conexión entre las estructuras moleculares y las descripciones textuales, y facilitando el desarrollo de LLM más interpretables y con mayor capacidad de análisis estructural. Abarca tareas de regresión y clasificación para 245 grupos funcionales diferentes en tres categorías (influencia de un solo grupo funcional, interacciones de grupos multifuncionales y comparaciones moleculares directas). Los resultados de referencia de los LLM de vanguardia demuestran que los LLM actuales presentan dificultades con la inferencia de características a nivel de grupo funcional. Se espera que la metodología FGBench sirva de base para generar nuevos pares de preguntas y respuestas con información a nivel de grupo funcional, lo que permitirá a los LLM comprender mejor las relaciones detalladas entre la estructura molecular y las propiedades. El conjunto de datos y el código de evaluación están disponibles públicamente en GitHub.

Takeaways, Limitations

Takeaways:
Presentamos FGBench, un nuevo conjunto de datos que puede contribuir a mejorar la capacidad de inferencia química de LLM mediante el uso de información detallada a nivel de grupo funcional.
Contribuir al desarrollo de nuevos fármacos y avances en el diseño molecular mejorando la comprensión de la relación entre la estructura molecular y las propiedades.
Proporciona tareas de regresión y clasificación para varios grupos funcionales para ayudar a evaluar y mejorar el desempeño de LLM.
La metodología de FGBench proporciona una base para construir otros conjuntos de datos relacionados con la química.
Limitations:
Los LLM actuales tienen dificultades con los problemas de inferencia a nivel funcional presentados en FGBench, lo que sugiere la necesidad de mejoras en el rendimiento en los LLM.
Tal vez se necesiten más investigaciones sobre el tamaño y la diversidad del conjunto de datos.
Existe la posibilidad de que haya problemas de sesgo o desequilibrio de datos para ciertos grupos funcionales.
👍