Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Expériences de microscopie autonome grâce à de grands agents modèles de langage

Created by
  • Haebom

Auteur

Indrajeet Mandal, Jitendra Soni, Mohd Zaki, Morten M. Smedskjaer, Katrin Wondraczek, Lothar Wondraczek, Nitya Nand Gosvami, NM Anoop Krishnan

Contour

Cet article aborde le potentiel et les limites des modèles de langage à grande échelle (LLM) dans les laboratoires de conduite autonome (LDA) pour la recherche sur les matériaux. Nous présentons AILA, un framework d'automatisation de la microscopie à force atomique (AFM) avec des agents basés sur les LLM, et développons AFMBench, un outil d'évaluation complet permettant d'évaluer les agents d'IA tout au long du processus scientifique, de la conception expérimentale à l'analyse des résultats. Les résultats de notre évaluation montrent que même les modèles les plus performants peinent à gérer les tâches de base et les scénarios de réglage. Claude 3.5, en particulier, obtient de bons résultats au test de questions-réponses (QA) dans le domaine des matériaux, mais sous-performe de manière inattendue par rapport à AILA. Cela suggère que les capacités d'AQ spécifiques à un domaine ne conduisent pas à une fonctionnalité efficace des agents. Nous constatons également que les LLM sont sujets aux écarts par rapport aux instructions et aux vulnérabilités des invites, où de petites modifications des invites peuvent affecter considérablement les performances, soulevant des problèmes d'alignement de sécurité pour les applications LDA. Nous démontrons qu'un cadre multi-agent surpasse une architecture à agent unique et nous évaluons l'efficacité de l'AILA sur des expériences de plus en plus difficiles, notamment l'étalonnage AFM, la détection de caractéristiques, les mesures de propriétés mécaniques, le comptage des couches de graphène et la détection d'indenteur.

Takeaways, Limitations_

Takeaways:
La première étude visant à évaluer systématiquement le potentiel et les limites d'un laboratoire autonome (SDL) exploitant des agents basés sur LLM.
Démontrer expérimentalement la supériorité du cadre multi-agent.
Nous révélons l’absence de corrélation entre les capacités d’assurance qualité spécifiques au domaine et la fonctionnalité de l’agent dans LLM.
Souligne la nécessité de protocoles d’analyse comparative rigoureux et de stratégies d’ingénierie rapides pour les implémentations SDL.
Limitations:
Même les modèles les plus avancés ont du mal à réaliser les tâches de base.
L'écart d'instruction et la vulnérabilité rapide du LLM soulèvent des problèmes de sécurité.
Des recherches supplémentaires sont nécessaires sur la corrélation entre les capacités d’assurance qualité spécifiques au domaine et les capacités des agents.
Une validation supplémentaire de la généralisabilité de l’outil d’évaluation AFMBench est nécessaire.
👍