दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

अहं-केंद्रित दुनिया में एक संयुक्त पूर्वानुमानित एजेंट मॉडल

Created by
  • Haebom

लेखक

लू चेन, यिज़हौ वांग, शिज़ियांग तांग, कियानहोंग मा, टोंग हे, वानली ओयांग, ज़ियाओवेई झोउ, हुजुन बाओ, सिडा पेंग

रूपरेखा

यह शोधपत्र एक ऐसे एजेंट मॉडल को सीखने की समस्या पर विचार करता है जो पर्यावरण को समझ सके, भविष्य की भविष्यवाणी कर सके और मनुष्यों की तरह, प्रथम-व्यक्ति दृष्टिकोण से कार्य कर सके। मौजूदा विधियाँ ऐसे मॉडलों का उपयोग करती हैं जो इन क्षमताओं को अलग-अलग सीखते हैं, उनके बीच के अंतर्संबंधों को समझने में विफल रहते हैं और एक-दूसरे से सीखने में बाधा डालते हैं। मानव बोध-क्रिया चक्र से प्रेरित होकर, हम EgoAgent का प्रस्ताव करते हैं, जो एक एकीकृत एजेंट मॉडल है जो एक ही ट्रांसफ़ॉर्मर के भीतर अभ्यावेदन, पूर्वानुमान और क्रियाओं को एक साथ सीखता है। EgoAgent कार्यों को अवस्थाओं और क्रियाओं के प्रतिच्छेदित अनुक्रमों के रूप में निरूपित करके इन क्षमताओं के बीच कारण और लौकिक निर्भरताओं को स्पष्ट रूप से मॉडल करता है। इसके अलावा, यह लौकिक रूप से असममित भविष्यवक्ता और प्रेक्षक शाखाओं के साथ एक संयुक्त एम्बेडिंग-क्रिया-पूर्वानुमान वास्तुकला प्रस्तुत करता है, जिससे तीनों क्षमताओं में सहक्रियात्मक अनुकूलन संभव होता है। छवि वर्गीकरण, आत्मकेंद्रित भविष्य की स्थिति की भविष्यवाणी, और त्रि-आयामी मानव गति की भविष्यवाणी जैसे प्रतिनिधि कार्यों पर EgoAgent के व्यापक मूल्यांकन प्रस्तावित विधि की श्रेष्ठता को प्रदर्शित करते हैं। कोड और प्रशिक्षित मॉडल सार्वजनिक रूप से https://github.com/zju3dv/EgoAgent पर उपलब्ध हैं ।

Takeaways, Limitations

Takeaways:
इगोएजेंट का प्रस्ताव, एक नया एजेंट मॉडल जो संज्ञानात्मक, पूर्वानुमानात्मक और क्रियात्मक क्षमताओं को एकीकृत करता है।
एकल ट्रांसफॉर्मर का उपयोग करके कुशल शिक्षण और अनुमान
अस्थायी रूप से असममित भविष्यवक्ताओं और पर्यवेक्षक शाखाओं के माध्यम से सहक्रियात्मक अनुकूलन प्राप्त करना।
छवि वर्गीकरण, अहंकारी भविष्य की स्थिति की भविष्यवाणी, और 3 डी मानव गति की भविष्यवाणी जैसे विभिन्न कार्यों में बेहतर प्रदर्शन का प्रदर्शन किया।
कोड और प्रशिक्षित मॉडलों तक खुली पहुंच के माध्यम से अनुसंधान की पुनरुत्पादकता और मापनीयता सुनिश्चित करना।
Limitations:
EgoAgent का प्रदर्शन विशिष्ट कार्यों और डेटासेट तक सीमित हो सकता है।
मॉडल की जटिलता के कारण कम्प्यूटेशनल लागत में संभावित वृद्धि
वास्तविक दुनिया के वातावरण में सामान्यीकरण प्रदर्शन पर और अधिक शोध की आवश्यकता है।
मॉडल की व्याख्या क्षमता में सुधार के लिए और अधिक शोध की आवश्यकता है।
👍