यह शोधपत्र सामग्री अनुसंधान के लिए स्वायत्त ड्राइविंग प्रयोगशालाओं (एसडीएल) में बड़े पैमाने पर भाषा मॉडल (एलएलएम) की क्षमता और सीमाओं को संबोधित करता है। हम AILA, LLM-आधारित एजेंटों के साथ परमाणु बल माइक्रोस्कोपी (AFM) को स्वचालित करने के लिए एक रूपरेखा प्रस्तुत करते हैं, और AFMBench विकसित करते हैं, जो प्रयोगात्मक डिजाइन से लेकर परिणाम विश्लेषण तक पूरे वैज्ञानिक वर्कफ़्लो में AI एजेंटों का मूल्यांकन करने के लिए एक व्यापक मूल्यांकन उपकरण है। हमारे मूल्यांकन परिणाम बताते हैं कि अत्याधुनिक मॉडल भी बुनियादी कार्यों और ट्यूनिंग परिदृश्यों के साथ संघर्ष करते हैं, और विशेष रूप से, क्लाउड 3.5 सामग्री डोमेन प्रश्न-उत्तर (QA) बेंचमार्क पर अच्छा प्रदर्शन करता है, लेकिन अप्रत्याशित रूप से AILA से कम प्रदर्शन करता है। इससे पता चलता है कि डोमेन-विशिष्ट QA क्षमताएँ प्रभावी एजेंट कार्यक्षमता की ओर नहीं ले जाती हैं। हम यह भी पाते हैं कि LLM निर्देशों और प्रॉम्प्ट भेद्यता से विचलन के लिए प्रवण हैं, जहाँ प्रॉम्प्ट में छोटे बदलाव प्रदर्शन को महत्वपूर्ण रूप से प्रभावित कर सकते हैं, जिससे SDL अनुप्रयोगों के लिए सुरक्षा संरेखण चिंताएँ बढ़ जाती हैं। हम प्रदर्शित करते हैं कि बहु-एजेंट ढांचा, एकल-एजेंट आर्किटेक्चर से बेहतर प्रदर्शन करता है, और हम AFM अंशांकन, फीचर डिटेक्शन, यांत्रिक गुण माप, ग्राफीन परत गणना और इंडेंटर डिटेक्शन सहित तेजी से कठिन होते प्रयोगों पर AILA की प्रभावशीलता का मूल्यांकन करते हैं।