यह शोधपत्र, कारणात्मक मार्गों (CPAs) के सिद्धांत पर आधारित एक नवीन बेंचमार्क, NaturalGAIA का प्रस्ताव करता है, जो मौजूदा मूल्यांकन बेंचमार्क की सटीकता, पुनरुत्पादनशीलता और मापनीयता की सीमाओं को दूर करने के लिए है, जो बड़े पैमाने पर भाषा मॉडल (LLM)-आधारित ग्राफ़िकल यूज़र इंटरफ़ेस (GUI) एजेंटों के विकास में बाधा डालते हैं। NaturalGAIA जटिल कार्यों को प्रोग्रामेटिक रूप से सत्यापन योग्य, परमाण्विक चरणों की एक श्रृंखला में संरचित करके कठोर, पूरी तरह से स्वचालित और पुनरुत्पादन योग्य मूल्यांकन मानदंड प्रदान करता है। इसके अलावा, एजेंटों की अंतर्निहित कार्यात्मक खामियों को कम करने के लिए, हम LightManus विकसित करते हैं, जो दीर्घकालिक कार्यों के लिए अनुकूलित एक पदानुक्रमित एजेंट आर्किटेक्चर है। इस आर्किटेक्चर का उपयोग उच्च-गुणवत्ता वाले मानव-सत्यापित डेटासेट को उत्पन्न करने के लिए किया जाता है जो LLM के विविध और स्व-सही अंतःक्रिया पैटर्न को कैप्चर करता है। इस डेटासेट का उपयोग करके, हम Qwen2.5-VL-7B मॉडल पर रीइन्फोर्समेंट लर्निंग फ़ाइन-ट्यूनिंग (RFT) करते हैं। प्रायोगिक परिणाम दर्शाते हैं कि नेचुरल GAIA अत्याधुनिक LLM के लिए भी गंभीर चुनौतियाँ प्रस्तुत करता है, जिसमें सर्वश्रेष्ठ प्रदर्शन करने वाला मॉडल, क्लाउड-सोनेट-4, केवल 34.6% की भारित पथ सफलता दर (WPSR) प्राप्त कर पाया। जहाँ RFT ने छोटे मॉडलों की GUI निष्पादन क्षमता में सुधार किया (WPSR 3.3% से बढ़कर 10.8% हो गया), वहीं जटिल परिदृश्यों में प्रदर्शन में उल्लेखनीय गिरावट आई, जिससे व्यापक कार्यों, जैसे कि धारणा, निर्णय लेने और निष्पादन, का सामना करने पर छोटे मॉडलों की अंतर्निहित प्रदर्शन सीमाएँ प्रदर्शित हुईं। यह अध्ययन कठोर मूल्यांकन मानदंड और एक उच्च-गुणवत्ता वाला डेटासेट प्रदान करता है, जो GUI एजेंटों के भविष्य के विकास के लिए मार्गदर्शन प्रदान करता है।