Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

ChemActor : Amélioration de l'extraction automatisée des actions de synthèse chimique grâce aux données générées par LLM

Created by
  • Haebom

Auteur

Yu Zhang, Ruijie Yu, Jidong Tian, ​​​​Feng Zhu, Jiapeng Liu, Xiaokang Yang, Yaohui Jin, Yanyan Xu

Contour

Cet article s'appuie sur l'intérêt croissant pour la synthèse robotique en chimie organique, qui a rendu importante l'extraction automatique de procédures chimiques issues de la littérature. Cette tâche demeure complexe en raison de l'ambiguïté du langage chimique et du coût humain élevé nécessaire au développement de protocoles d'extraction assistée par ordinateur fiables. Dans cet article, nous présentons ChemActor, un modèle de langage à grande échelle (LLM) entièrement optimisé, utilisé comme exécuteur chimique pour la traduction entre procédures expérimentales non structurées et séquences de tâches structurées. Pour résoudre le problème de l'insuffisance et de la mauvaise qualité des données annotées, nous proposons un cadre de données de génération de LLM séquentiel. Ce cadre intègre un module de sélection de données basé sur des branches distributionnelles, ainsi qu'un LLM polyvalent générant des tâches exécutables par machine à partir d'entrées de molécules uniques. Nous introduisons également une nouvelle métrique de revue récursive LLM multi-tours, reflétant la compréhension avancée du modèle des procédures expérimentales chimiques. Des expériences approfondies sur les tâches de réaction à description (R2D) et de description à action (D2A) montrent que ChemActor, enrichi de données générées par LLM, atteint des performances de pointe, supérieures de 10 % à celles des modèles de référence. Le code est disponible à l'adresse https://github.com/Zhanghahah/ChemActor .

Takeaways, Limitations

Takeaways:
Présentation de nouvelles possibilités d'extraction automatisée de procédures chimiques basées sur LLM
Proposer une solution au problème de pénurie de données en utilisant les données générées par LLM
Améliorer les performances du modèle et accroître la compréhension grâce à des mesures d'examen circulaire LLM à plusieurs tours
Obtenir une technologie de pointe avec des performances améliorées de 10 % par rapport aux modèles existants
Assurer la reproductibilité et l'extensibilité de la recherche grâce à la divulgation du code source ouvert
Limitations:
Une validation supplémentaire de la qualité et de la fiabilité des données générées par LLM est nécessaire
Nécessité d'une évaluation généralisée des performances pour diverses réactions chimiques et procédures expérimentales
L'intégration avec des systèmes robotiques réels et une validation expérimentale sont nécessaires.
Des recherches supplémentaires sont nécessaires sur l’interprétabilité et l’explicabilité du LLM
👍