Cet article aborde le potentiel et les limites des modèles de langage à grande échelle (LLM) dans les laboratoires de conduite autonome (LDA) pour la recherche sur les matériaux. Nous présentons AILA, un framework d'automatisation de la microscopie à force atomique (AFM) avec des agents basés sur les LLM, et développons AFMBench, un outil d'évaluation complet permettant d'évaluer les agents d'IA tout au long du processus scientifique, de la conception expérimentale à l'analyse des résultats. Les résultats de notre évaluation montrent que même les modèles les plus performants peinent à gérer les tâches de base et les scénarios de réglage. Claude 3.5, en particulier, obtient de bons résultats au test de questions-réponses (QA) dans le domaine des matériaux, mais sous-performe de manière inattendue par rapport à AILA. Cela suggère que les capacités d'AQ spécifiques à un domaine ne conduisent pas à une fonctionnalité efficace des agents. Nous constatons également que les LLM sont sujets aux écarts par rapport aux instructions et aux vulnérabilités des invites, où de petites modifications des invites peuvent affecter considérablement les performances, soulevant des problèmes d'alignement de sécurité pour les applications LDA. Nous démontrons qu'un cadre multi-agent surpasse une architecture à agent unique et nous évaluons l'efficacité de l'AILA sur des expériences de plus en plus difficiles, notamment l'étalonnage AFM, la détection de caractéristiques, les mesures de propriétés mécaniques, le comptage des couches de graphène et la détection d'indenteur.