यह शोधपत्र मिशन-महत्वपूर्ण वार्ता स्थितियों में एजेंट AI प्रणालियों के लिए एक मूल्यांकन ढाँचा प्रस्तुत करता है। विविध मानव संचालकों और हितधारकों के अनुकूल ढल सकने वाले AI एजेंटों की आवश्यकता को पूरा करने के लिए, हमने व्यवस्थित रूप से मूल्यांकन किया कि व्यक्तित्व लक्षण और AI एजेंट विशेषताएँ, LLM (निम्न-निम्न-स्तरीय प्रबंधन) के साथ सिम्युलेटेड सामाजिक वार्ताओं के परिणामों को कैसे प्रभावित करती हैं। सोटोपिया सिमुलेशन टेस्टबेड का उपयोग करके दो प्रयोगों के माध्यम से। यह विभिन्न अनुप्रयोगों के लिए आवश्यक है, जिसमें अंतर-टीम समन्वय और नागरिक-सैन्य अंतःक्रियाएँ शामिल हैं। प्रयोग 1 में, हमने मूल्य वार्ताओं पर व्यक्तित्व लक्षणों के प्रभाव को मापने के लिए कारण-निर्धारण विधियों का उपयोग किया, और पाया कि सहमति और बहिर्मुखता विश्वसनीयता, लक्ष्य प्राप्ति और ज्ञान अर्जन परिणामों को महत्वपूर्ण रूप से प्रभावित करती हैं। टीम संचार से निकाला गया एक सामाजिक-संज्ञानात्मक शब्दावली पैमाना एजेंटों के सहानुभूतिपूर्ण संचार, नैतिक आधारों और राय के स्वरूपों में सूक्ष्म अंतरों का पता लगाता है, और एजेंट AI प्रणालियों के लिए कार्रवाई योग्य अंतर्दृष्टि प्रदान करता है जिन्हें उच्च-जोखिम वाले परिचालन परिदृश्यों में विश्वसनीय रूप से संचालित होना चाहिए। प्रयोग 2 में, हमने कृत्रिम मानव व्यक्तित्व लक्षणों और एआई प्रणाली विशेषताओं (विशेष रूप से पारदर्शिता, क्षमता और अनुकूलनशीलता) का उपयोग करके मानव-एआई कार्य वार्ताओं का मूल्यांकन किया ताकि यह प्रदर्शित किया जा सके कि एआई एजेंटों की विश्वसनीयता मिशन की प्रभावशीलता को कैसे प्रभावित करती है। ये परिणाम विविध ऑपरेटर व्यक्तित्वों और मानव-एजेंट टीम गतिशीलता में एआई एजेंटों की विश्वसनीयता के परीक्षण हेतु एक दोहराए जाने योग्य मूल्यांकन पद्धति स्थापित करके मज़बूत एआई प्रणालियों की परिचालन आवश्यकताओं का प्रत्यक्ष समर्थन करते हैं। यह शोध मानक प्रदर्शन मीट्रिक से आगे बढ़कर और जटिल परिचालनों में मिशन की सफलता के लिए आवश्यक सामाजिक गतिशीलता को शामिल करके एजेंट एआई वर्कफ़्लो के मूल्यांकन को आगे बढ़ाता है।