[공지사항]을 빙자한 안부와 근황 
Show more

दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

माइंडजर्नी: स्थानिक तर्क के लिए विश्व मॉडल के साथ परीक्षण-समय स्केलिंग

Created by
  • Haebom

लेखक

युनकोंग यांग, जियागेंग लियू, झेयुआन झांग, सियुआन झोउ, रूबेन टैन, जियानवेई यांग, यिलुन डू, चुआंग गण

रूपरेखा

इस शोधपत्र में, हम माइंडजर्नी का प्रस्ताव रखते हैं, जो दृश्य-भाषा मॉडल (वीएलएम) की त्रि-आयामी स्थानिक अनुमान क्षमता को बढ़ाने के लिए एक नवीन परीक्षण-समय स्केलिंग ढाँचा है। माइंडजर्नी एक नियंत्रणीय वीडियो प्रसार-आधारित विश्व मॉडल को एक वीएलएम के साथ संयोजित करता है ताकि वीएलएम की केवल द्वि-आयामी छवियों को पहचानने की सीमा को दूर किया जा सके और उसे त्रि-आयामी गतिशीलता को समझने में मदद मिल सके। वीएलएम कैमरा प्रक्षेप पथों की योजना बनाता है, विश्व मॉडल प्रत्येक चरण के अनुरूप दृष्टिकोणों का संश्लेषण करता है, और वीएलएम अंतःक्रियात्मक अन्वेषण प्रक्रिया के दौरान प्राप्त बहु-दृश्य साक्ष्य के आधार पर अनुमान लगाता है। हमने बिना किसी फाइन-ट्यूनिंग के, एक प्रतिनिधि स्थानिक अनुमान बेंचमार्क, SAT पर 8% से अधिक का औसत प्रदर्शन सुधार प्राप्त किया, जिससे यह प्रदर्शित होता है कि परीक्षण-समय स्केलिंग के लिए विश्व मॉडल का संयोजन सुदृढ़ त्रि-आयामी अनुमान के लिए एक सरल, प्लग-एंड-प्ले दृष्टिकोण है। इसके अलावा, हम सुदृढीकरण अधिगम द्वारा प्रशिक्षित परीक्षण-समय अनुमान वीएलएम से बेहतर प्रदर्शन करके परीक्षण-समय स्केलिंग के लिए विश्व मॉडल का लाभ उठाने की क्षमता प्रदर्शित करते हैं।

Takeaways, Limitations

Takeaways:
हम प्रदर्शित करते हैं कि परीक्षण समय स्केलिंग के लिए विश्व मॉडल और वीएलएम को संयोजित करने से 3D स्थानिक अनुमान प्रदर्शन में सुधार हो सकता है।
यह एक कुशल विधि साबित हुई है जो बिना किसी सुधार के प्रदर्शन में सुधार लाती है।
हम सुदृढीकरण अधिगम-आधारित VLM से बेहतर प्रदर्शन करके विश्व मॉडल-आधारित दृष्टिकोण की उपयोगिता को प्रदर्शित करते हैं।
सरल और प्लग-एंड-प्ले डिज़ाइन, विभिन्न वीएलएम पर अत्यधिक लागू।
Limitations:
प्रस्तावित विधि के सामान्यीकरण प्रदर्शन पर आगे अनुसंधान की आवश्यकता है।
विश्व मॉडल कम्प्यूटेशनल दृष्टि से महंगे हो सकते हैं।
यह सत्यापित करने की आवश्यकता है कि क्या किसी विशिष्ट बेंचमार्क के लिए प्रदर्शन में सुधार अन्य बेंचमार्क के लिए भी समान प्रदर्शन सुधार में परिवर्तित होता है।
विश्व मॉडल की सटीकता पर उच्च निर्भरता हो सकती है।
👍