दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

प्रोएक्टिवइवल: प्रोएक्टिव डायलॉग एजेंटों के लिए एक एकीकृत मूल्यांकन ढांचा

Created by
  • Haebom

लेखक

तियानजियान लियू, फैनकी वान, जियाजियान गुओ, जिओजुन क्वान

रूपरेखा

यह शोधपत्र प्रोएक्टिवइवल का प्रस्ताव करता है, जो बड़े पैमाने के भाषा मॉडलों (एलएलएम) की शाब्दिक संवादात्मक क्षमता के मूल्यांकन हेतु एक एकीकृत ढाँचा है। पिछले अध्ययनों की सीमाओं को दूर करने के लिए, जिनमें विशिष्ट डोमेन या कार्य-उन्मुख परिदृश्यों पर ध्यान केंद्रित किया गया है और इस प्रकार मॉडलों की शाब्दिक संवादात्मक क्षमता के व्यापक अन्वेषण को सीमित किया गया है, हम शाब्दिक संवाद को दो पहलुओं में विभाजित करते हैं: लक्ष्य नियोजन और संवाद मार्गदर्शन। हम कई डोमेन में मूल्यांकन मेट्रिक्स स्थापित करते हैं। इसके अलावा, हम इस ढाँचे को विविध और चुनौतीपूर्ण मूल्यांकन डेटा स्वचालित रूप से उत्पन्न करने के लिए डिज़ाइन करते हैं। हमने छह अलग-अलग डोमेन में 328 मूल्यांकन वातावरण विकसित किए और 22 एलएलएम के साथ प्रयोग किया, जिससे यह प्रदर्शित हुआ कि डीपसीक-आर1 और क्लाउड-3.7-सॉनेट क्रमशः लक्ष्य नियोजन और संवाद मार्गदर्शन कार्यों में अच्छा प्रदर्शन करते हैं। अंत में, हम शाब्दिक व्यवहार पर तर्क क्षमता के प्रभाव की जाँच करते हैं और भविष्य के मॉडल विकास के निहितार्थों पर चर्चा करते हैं।

Takeaways, Limitations

Takeaways:
एलएलएम में पूर्व-परीक्षण संचार कौशल का आकलन करने के लिए एक एकीकृत और व्यवस्थित ढांचा (प्रोएक्टिवइवल) प्रस्तुत करना।
विभिन्न डोमेन और एलएलएम पर व्यापक प्रयोगों से ऐसे मॉडल (डीपसीक-आर1, क्लाउड-3.7-सॉनेट) सामने आए हैं जो उत्कृष्ट प्रदर्शन प्रदर्शित करते हैं।
तर्क क्षमता और पूर्व-मौजूद बातचीत क्षमता के बीच संबंध को स्पष्ट करना और भविष्य के मॉडल विकास दिशाओं का सुझाव देना।
Limitations:
प्रोएक्टिवइवल फ्रेमवर्क की सामान्यता निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है।
मूल्यांकन डेटा की विविधता और संतुलन की आगे समीक्षा की आवश्यकता है।
ऐसे परिणामों की व्याख्या करते समय सावधानी बरतने की आवश्यकता है जो विशिष्ट डोमेन के प्रति पक्षपाती हों।
पूर्व-मौजूद वार्तालाप कौशल की परिभाषा और माप पर आगे चर्चा की आवश्यकता है।
👍