दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

विचार-श्रृंखला तर्क में स्मरणशक्ति का निदान, एक समय में एक टोकन

Created by
  • Haebom

लेखक

हुइहान ली, यू चेन, सियुआन वांग, यिक्सिन हे, निनारेह मेहराबी, राहुल गुप्ता, जियांग रेन

रूपरेखा

यह पत्र उस परिघटना को संबोधित करता है जहाँ बड़े पैमाने के भाषा मॉडल (LLM) अनुमान मानकों पर अच्छा प्रदर्शन करते हैं, लेकिन अक्सर इनपुट में थोड़ा बदलाव होने पर भी विफल हो जाते हैं। विशेष रूप से, हम इस बात पर प्रकाश डालते हैं कि विचार श्रृंखला (CoT) अनुमान में दोषपूर्ण स्मृति पैटर्न मध्यवर्ती त्रुटियों को जन्म दे सकते हैं, जिसके परिणामस्वरूप गलत अंतिम उत्तर प्राप्त होते हैं। इसे संबोधित करने के लिए, हम STIM, एक नवीन ढाँचा प्रस्तुत करते हैं। STIM, पूर्व-प्रशिक्षण कोष में सांख्यिकीय सह-घटनाओं के आधार पर, अनुमान प्रक्रिया में प्रत्येक टोकन को कई स्मृति स्रोतों—स्थानीय, मध्य-सीमा, या दीर्घ-सीमा—में से एक को निर्दिष्ट करके स्मृति के स्रोत की पहचान करने पर केंद्रित है। विभिन्न कार्यों और वितरणात्मक सेटिंग्स में टोकन-स्तरीय विश्लेषण से पता चलता है कि मॉडल जटिल या दीर्घ-पुच्छीय कार्यों में स्मृति पर अधिक निर्भर करते हैं, जहाँ स्थानीय स्मृति त्रुटियों का प्राथमिक स्रोत होती है (गलत टोकनों का 67% तक)। हम यह भी प्रदर्शित करते हैं कि STIM के स्मृति स्कोर का उपयोग त्रुटिपूर्ण अनुमान चरणों में गलत टोकनों की भविष्यवाणी करने के लिए किया जा सकता है। STIM मॉडल अनुमान के निदान और सुधार के लिए एक शक्तिशाली उपकरण है और इसे अन्य संरचित चरण-दर-चरण निर्माण कार्यों के लिए सामान्यीकृत किया जा सकता है।

Takeaways, Limitations

Takeaways:
हम टोकन स्तर पर एलएलएम में अनुमान त्रुटियों के कारणों का विश्लेषण करने के लिए एक नया ढांचा (एसटीआईएम) प्रस्तुत करते हैं।
जब एलएलएम जटिल या दुर्लभ होता है, तो यह स्मृति पर अधिक निर्भर करता है, जिससे पता चलता है कि स्थानीय स्मृति त्रुटियों का मुख्य स्रोत है।
STIM का उपयोग करके गलत अनुमान चरणों में त्रुटियों का पूर्वानुमान लगाया जा सकता है।
यह अन्य संरचित चरण-दर-चरण निर्माण कार्यों पर भी लागू होता है।
Limitations:
एसटीआईएम का प्रदर्शन मूल्यांकन विशिष्ट बेंचमार्क और डेटासेट तक सीमित हो सकता है।
स्मृति की परिभाषा और माप पर आगे अनुसंधान की आवश्यकता हो सकती है।
यह संभव है कि सभी प्रकार की अनुमान त्रुटियों को पूरी तरह से नहीं पकड़ा जा सके।
👍