[공지사항]을 빙자한 안부와 근황 
Show more

दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

MEM1: कुशल दीर्घकालिक एजेंटों के लिए स्मृति और तर्क का समन्वय करना सीखना

Created by
  • Haebom

लेखक

ज़िजियन झोउ, एओ क्व, झाओक्सुआन वू, सुंगवान किम, आलोक प्रकाश, डेनिएला रुस, जिंहुआ झाओ, ब्रायन कियान सियांग लो, पॉल पु लियांग

रूपरेखा

यह पत्र उन आधुनिक भाषा एजेंटों की सीमाओं पर विचार करता है जो बाह्य जानकारी प्राप्त करते हैं, अवलोकनों के अनुकूल होते हैं, और दीर्घकालिक, बहु-दौर की अंतःक्रियाओं में अन्योन्याश्रित प्रश्नों के उत्तर देते हैं। मौजूदा एलएलएम प्रणालियाँ पूर्ण संदर्भ संकेत पर निर्भर करती हैं, जो प्रासंगिकता की परवाह किए बिना सभी पिछले दौरों को जोड़ देती है, जिसके परिणामस्वरूप अनंत स्मृति वृद्धि, बढ़ी हुई गणना लागत, और वितरण के बाहर इनपुट लंबाई के लिए खराब अनुमान प्रदर्शन होता है। इसके जवाब में, यह पत्र MEM1 का प्रस्ताव करता है, जो एक एंड-टू-एंड सुदृढीकरण सीखने का ढाँचा है जो निरंतर स्मृति का उपयोग करके दीर्घकालिक, बहु-दौर के कार्य कर सकता है। MEM1 एक संपीड़ित साझा आंतरिक स्थिति को अद्यतन करता है जो प्रत्येक दौर में स्मृति एकीकरण और अनुमान का समर्थन करती है, पर्यावरण से नए अवलोकनों को पिछली स्मृतियों के साथ एकीकृत करती है जबकि रणनीतिक रूप से अप्रासंगिक या अनावश्यक जानकारी को हटाती है। इसके अलावा, हम मौजूदा डेटासेट को मनमाने ढंग से जटिल कार्य अनुक्रमों में संयोजित करके अधिक यथार्थवादी और रचनात्मक वातावरण में सीखने का समर्थन करने के लिए एक सरल, फिर भी प्रभावी और मापनीय विधि का प्रस्ताव करते हैं। आंतरिक खोज QA, ओपन-डोमेन वेब QA, और मल्टी-हॉप वेब शॉपिंग सहित तीन डोमेन में किए गए प्रयोगों से पता चलता है कि MEM1-7B, 16-उद्देश्य वाले मल्टी-हॉप QA कार्य पर Qwen2.5-14B-Instruct की तुलना में प्रदर्शन में 3.5 गुना सुधार करता है, जबकि मेमोरी उपयोग में 3.7 गुना कमी लाता है, और प्रशिक्षण अवधि से कहीं आगे तक सामान्यीकृत होता है। हमारे परिणाम दीर्घकालिक इंटरैक्टिंग एजेंटों के प्रशिक्षण के लिए मौजूदा समाधानों के एक स्केलेबल विकल्प के रूप में अनुमान-आधारित मेमोरी एकीकरण की क्षमता को प्रदर्शित करते हैं जो दक्षता और प्रदर्शन दोनों को अनुकूलित करता है।

____T33800_____, ____T33801_____

Takeaways:
हम अनुमान-आधारित स्मृति एकीकरण के माध्यम से दीर्घकालिक, बहु-टर्न इंटरैक्टिव एजेंटों की दक्षता और प्रदर्शन में एक साथ सुधार की संभावना प्रस्तुत करते हैं।
एमईएम1 मौजूदा एलएलएम की मेमोरी सीमा समस्या को प्रभावी ढंग से हल करता है और सीमित मेमोरी वातावरण में भी उत्कृष्ट प्रदर्शन प्राप्त करता है।
हम विभिन्न डोमेन में प्रयोगों के माध्यम से MEM1 की सामान्यीकरण क्षमता को सत्यापित करते हैं।
हम मौजूदा डेटासेट का उपयोग करके एक स्केलेबल मल्टी-टर्न वातावरण बनाने की विधि प्रस्तुत करते हैं।
Limitations:
एमईएम1 की आंतरिक स्थिति अद्यतन रणनीति और सूचना विलोपन मानदंडों के विस्तृत स्पष्टीकरण का अभाव।
विशिष्ट डेटासेट और कार्यों पर प्रदर्शन के मूल्यांकन में पूर्वाग्रह के कारण, विविध वातावरणों में सामान्यीकरण प्रदर्शन पर और अधिक शोध की आवश्यकता है।
प्रयोगात्मक वातावरण का विस्तार कर उसमें अधिक जटिल एवं विविध अंतःक्रियाओं को शामिल करने की आवश्यकता है।
स्मृति प्रबंधन रणनीतियों को अनुकूलित करने के लिए और अधिक शोध की आवश्यकता है।
👍