दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

भाषा मॉडल शायद आपको समझ न पाएँ: कहानी के माध्यम से मन के सिद्धांत का मूल्यांकन

Created by
  • Haebom

लेखक

नथानिएल गेटाचेव, अबुलहेयर सपारोव

रूपरेखा

स्टोरीसिम एक प्रोग्रामयोग्य ढाँचा है जो बड़े पैमाने के भाषा मॉडल (एलएलएम) की सैद्धांतिक मन (टीओएम) और विश्व मॉडलिंग (डब्ल्यूएम) क्षमताओं का मूल्यांकन करने हेतु कृत्रिम रूप से कहानियाँ उत्पन्न करता है। मौजूदा बेंचमार्क की पूर्व-प्रशिक्षण डेटा संदूषण समस्या का समाधान करने के लिए, स्टोरीसिम अत्यधिक नियंत्रित स्टोरीबोर्ड पर आधारित नवीन, रचनात्मक कहानी संकेत उत्पन्न करता है, जिससे पात्रों के दृष्टिकोण और घटनाओं का सटीक रूप से हेरफेर संभव होता है। इस ढाँचे का उपयोग करते हुए, हमने प्राथमिक और द्वितीयक टीओएम कार्यों के साथ-साथ मानसिक अवस्थाओं को ट्रैक करने और मॉडल करने की क्षमता का आकलन करने वाले डब्लूएम कार्यों को भी डिज़ाइन किया। अत्याधुनिक एलएलएम के साथ प्रयोगों से पता चला कि अधिकांश मॉडलों ने टीओएम कार्यों की तुलना में डब्लूएम कार्यों पर बेहतर प्रदर्शन किया, और निर्जीव वस्तुओं की तुलना में मनुष्यों के साथ तर्क करने में बेहतर प्रदर्शन किया। इसके अलावा, हमें अनुमानी व्यवहारों के प्रमाण भी मिले, जैसे कि हालिया पूर्वाग्रह और कहानी की शुरुआती घटनाओं पर अत्यधिक निर्भरता। डेटा निर्माण और मूल्यांकन के लिए सभी कोड सार्वजनिक रूप से उपलब्ध हैं।

Takeaways, Limitations

Takeaways:
हम स्टोरीसिम प्रस्तुत करते हैं, जो एलएलएम में टीओएम और डब्लूएम क्षमताओं का आकलन करने के लिए एक नया ढांचा है।
मौजूदा बेंचमार्क के पूर्व-प्रशिक्षण डेटा संदूषण मुद्दे को संबोधित करते हुए, Limitations.
स्टोरीबोर्ड के माध्यम से विभिन्न ToM और WM कार्यों का सटीक वर्णनात्मक हेरफेर और डिजाइन संभव है।
एलएलएम में टीओएम और डब्लूएम क्षमताओं में नई अंतर्दृष्टि प्रदान करता है (डब्लूएम> टीओएम, मानव तर्क> निर्जीव तर्क, अनुमानी व्यवहार की खोज)।
ओपन सोर्स कोड के माध्यम से पुनरुत्पादन और मापनीयता सुनिश्चित करें।
Limitations:
स्टोरीसिम द्वारा उत्पन्न कहानियों की सामान्यता निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है।
विभिन्न प्रकार के एलएलएम पर आगे और प्रयोग करने की आवश्यकता है।
हेयुरिस्टिक व्यवहार के मूल कारणों को समझने के लिए आगे विश्लेषण की आवश्यकता है।
👍