본 논문은 재료 연구를 위한 자율 주행 실험실(SDL)에서 대규모 언어 모델(LLM)의 활용 가능성과 한계를 다룹니다. LLM 기반 에이전트를 통해 원자힘 현미경(AFM)을 자동화하는 프레임워크인 AILA를 소개하고, AI 에이전트를 실험 설계부터 결과 분석까지 전체 과학적 워크플로우에 걸쳐 평가하는 포괄적인 평가 도구인 AFMBench를 개발했습니다. 평가 결과, 최첨단 모델들조차 기본적인 작업과 조정 시나리오에서 어려움을 겪는 것으로 나타났으며, 특히 Claude 3.5는 재료 분야 질의응답(QA) 벤치마크에서는 뛰어난 성능을 보였지만 AILA에서는 예상외로 성능이 저조했습니다. 이는 도메인 특정 QA 능력이 효과적인 에이전트 기능으로 이어지지 않음을 시사합니다. 또한, LLM이 지시사항에서 벗어나는 현상과 프롬프트의 작은 변화에도 성능이 크게 달라지는 프롬프트 취약성을 발견하여 SDL 응용 분야에서의 안전 정렬 문제를 제기했습니다. 다중 에이전트 프레임워크가 단일 에이전트 아키텍처보다 우수한 성능을 보였으며, AFM 교정, 특징 감지, 기계적 특성 측정, 그래핀 층 계산 및 압입기 감지 등 점진적으로 어려워지는 실험에서 AILA의 효과를 평가했습니다.