यह पत्र उन आधुनिक भाषा एजेंटों की सीमाओं पर विचार करता है जो बाह्य जानकारी प्राप्त करते हैं, अवलोकनों के अनुकूल होते हैं, और दीर्घकालिक, बहु-दौर की अंतःक्रियाओं में अन्योन्याश्रित प्रश्नों के उत्तर देते हैं। मौजूदा एलएलएम प्रणालियाँ पूर्ण संदर्भ संकेत पर निर्भर करती हैं, जो प्रासंगिकता की परवाह किए बिना सभी पिछले दौरों को जोड़ देती है, जिसके परिणामस्वरूप अनंत स्मृति वृद्धि, बढ़ी हुई गणना लागत, और वितरण के बाहर इनपुट लंबाई के लिए खराब अनुमान प्रदर्शन होता है। इसके जवाब में, यह पत्र MEM1 का प्रस्ताव करता है, जो एक एंड-टू-एंड सुदृढीकरण सीखने का ढाँचा है जो निरंतर स्मृति का उपयोग करके दीर्घकालिक, बहु-दौर के कार्य कर सकता है। MEM1 एक संपीड़ित साझा आंतरिक स्थिति को अद्यतन करता है जो प्रत्येक दौर में स्मृति एकीकरण और अनुमान का समर्थन करती है, पर्यावरण से नए अवलोकनों को पिछली स्मृतियों के साथ एकीकृत करती है जबकि रणनीतिक रूप से अप्रासंगिक या अनावश्यक जानकारी को हटाती है। इसके अलावा, हम मौजूदा डेटासेट को मनमाने ढंग से जटिल कार्य अनुक्रमों में संयोजित करके अधिक यथार्थवादी और रचनात्मक वातावरण में सीखने का समर्थन करने के लिए एक सरल, फिर भी प्रभावी और मापनीय विधि का प्रस्ताव करते हैं। आंतरिक खोज QA, ओपन-डोमेन वेब QA, और मल्टी-हॉप वेब शॉपिंग सहित तीन डोमेन में किए गए प्रयोगों से पता चलता है कि MEM1-7B, 16-उद्देश्य वाले मल्टी-हॉप QA कार्य पर Qwen2.5-14B-Instruct की तुलना में प्रदर्शन में 3.5 गुना सुधार करता है, जबकि मेमोरी उपयोग में 3.7 गुना कमी लाता है, और प्रशिक्षण अवधि से कहीं आगे तक सामान्यीकृत होता है। हमारे परिणाम दीर्घकालिक इंटरैक्टिंग एजेंटों के प्रशिक्षण के लिए मौजूदा समाधानों के एक स्केलेबल विकल्प के रूप में अनुमान-आधारित मेमोरी एकीकरण की क्षमता को प्रदर्शित करते हैं जो दक्षता और प्रदर्शन दोनों को अनुकूलित करता है।