Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

FGBench : un ensemble de données et une référence pour le raisonnement sur les propriétés moléculaires au niveau des groupes fonctionnels dans les grands modèles de langage

Created by
  • Haebom

Auteur

Xuan Liu, Siru Ouyang, Xianrui Zhong, Jiawei Han, Huimin Zhao

Contour

Cet article présente FGBench, un nouvel ensemble de données contenant 625 000 problèmes d'inférence de caractéristiques moléculaires, visant à améliorer les performances des modèles de langage à grande échelle (MLL) exploitant les informations sur les groupes fonctionnels (GF) en chimie. FGBench annote et localise avec précision les groupes fonctionnels au sein des molécules, renforçant ainsi le lien entre les structures moléculaires et les descriptions textuelles, et facilitant le développement de LLM plus interprétables et plus sensibles à la structure. Il englobe des tâches de régression et de classification pour 245 groupes fonctionnels différents répartis en trois catégories (influence d'un groupe fonctionnel unique, interactions entre groupes multifonctionnels et comparaisons moléculaires directes). Les résultats de référence des LLM de pointe démontrent que les LLM actuels peinent à inférer des caractéristiques au niveau des groupes fonctionnels. La méthodologie FGBench devrait servir de base à la génération de nouvelles paires question-réponse avec des informations au niveau des groupes fonctionnels, permettant aux LLM de mieux comprendre les relations fines entre structure et propriété moléculaires. L'ensemble de données et le code d'évaluation sont accessibles au public sur GitHub.

Takeaways, Limitations

Takeaways:
Nous présentons FGBench, un nouvel ensemble de données qui peut contribuer à améliorer la capacité d'inférence chimique du LLM en utilisant des informations à granularité fine au niveau du groupe fonctionnel.
Contribuer au développement de nouveaux médicaments et aux avancées dans la conception moléculaire en améliorant la compréhension de la relation entre la structure moléculaire et les propriétés.
Fournit des tâches de régression et de classification pour divers groupes fonctionnels afin d'aider à évaluer et à améliorer les performances du LLM.
La méthodologie de FGBench fournit une base pour la création d’autres ensembles de données liés aux produits chimiques.
Limitations:
Les LLM actuels sont confrontés aux problèmes d'inférence au niveau fonctionnel présentés dans FGBench, ce qui suggère la nécessité d'améliorer les performances des LLM.
Des recherches supplémentaires pourraient être nécessaires sur la taille et la diversité de l’ensemble de données.
Il existe un risque de biais ou de déséquilibre des données pour certains groupes fonctionnels.
👍