यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है। यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है। पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।
यह शोधपत्र एक ऐसे एजेंट मॉडल को सीखने की समस्या पर विचार करता है जो पर्यावरण को समझ सके, भविष्य की भविष्यवाणी कर सके और मनुष्यों की तरह, प्रथम-व्यक्ति दृष्टिकोण से कार्य कर सके। मौजूदा विधियाँ ऐसे मॉडलों का उपयोग करती हैं जो इन क्षमताओं को अलग-अलग सीखते हैं, उनके बीच के अंतर्संबंधों को समझने में विफल रहते हैं और एक-दूसरे से सीखने में बाधा डालते हैं। मानव बोध-क्रिया चक्र से प्रेरित होकर, हम EgoAgent का प्रस्ताव करते हैं, जो एक एकीकृत एजेंट मॉडल है जो एक ही ट्रांसफ़ॉर्मर के भीतर अभ्यावेदन, पूर्वानुमान और क्रियाओं को एक साथ सीखता है। EgoAgent कार्यों को अवस्थाओं और क्रियाओं के प्रतिच्छेदित अनुक्रमों के रूप में निरूपित करके इन क्षमताओं के बीच कारण और लौकिक निर्भरताओं को स्पष्ट रूप से मॉडल करता है। इसके अलावा, यह लौकिक रूप से असममित भविष्यवक्ता और प्रेक्षक शाखाओं के साथ एक संयुक्त एम्बेडिंग-क्रिया-पूर्वानुमान वास्तुकला प्रस्तुत करता है, जिससे तीनों क्षमताओं में सहक्रियात्मक अनुकूलन संभव होता है। छवि वर्गीकरण, आत्मकेंद्रित भविष्य की स्थिति की भविष्यवाणी, और त्रि-आयामी मानव गति की भविष्यवाणी जैसे प्रतिनिधि कार्यों पर EgoAgent के व्यापक मूल्यांकन प्रस्तावित विधि की श्रेष्ठता को प्रदर्शित करते हैं। कोड और प्रशिक्षित मॉडल सार्वजनिक रूप से https://github.com/zju3dv/EgoAgent पर उपलब्ध हैं ।