यह शोधपत्र प्रोएक्टिवइवल का प्रस्ताव करता है, जो बड़े पैमाने के भाषा मॉडलों (एलएलएम) की शाब्दिक संवादात्मक क्षमता के मूल्यांकन हेतु एक एकीकृत ढाँचा है। पिछले अध्ययनों की सीमाओं को दूर करने के लिए, जिनमें विशिष्ट डोमेन या कार्य-उन्मुख परिदृश्यों पर ध्यान केंद्रित किया गया है और इस प्रकार मॉडलों की शाब्दिक संवादात्मक क्षमता के व्यापक अन्वेषण को सीमित किया गया है, हम शाब्दिक संवाद को दो पहलुओं में विभाजित करते हैं: लक्ष्य नियोजन और संवाद मार्गदर्शन। हम कई डोमेन में मूल्यांकन मेट्रिक्स स्थापित करते हैं। इसके अलावा, हम इस ढाँचे को विविध और चुनौतीपूर्ण मूल्यांकन डेटा स्वचालित रूप से उत्पन्न करने के लिए डिज़ाइन करते हैं। हमने छह अलग-अलग डोमेन में 328 मूल्यांकन वातावरण विकसित किए और 22 एलएलएम के साथ प्रयोग किया, जिससे यह प्रदर्शित हुआ कि डीपसीक-आर1 और क्लाउड-3.7-सॉनेट क्रमशः लक्ष्य नियोजन और संवाद मार्गदर्शन कार्यों में अच्छा प्रदर्शन करते हैं। अंत में, हम शाब्दिक व्यवहार पर तर्क क्षमता के प्रभाव की जाँच करते हैं और भविष्य के मॉडल विकास के निहितार्थों पर चर्चा करते हैं।