दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

क्या दृष्टि भाषा मॉडल अनुकरणीय क्रियाओं को समझ सकते हैं?

Created by
  • Haebom

लेखक

ह्युंडोंग चो, स्पेंसर लिन, तेजस श्रीनिवासन, माइकल सैक्सन, ड्यूक्सिन क्वोन, नताली टी. चावेज़, जोनाथन मे

रूपरेखा

यह शोधपत्र अशाब्दिक संचार (NVC) के एक उपसमूह, माइम (MIME) पर केंद्रित है और दृश्य-भाषा मॉडलों की NVC समझ को बेहतर बनाने के लिए एक नवीन मूल्यांकन मीट्रिक, MIME का प्रस्ताव करता है। MIME एक वीडियो-आधारित प्रश्नोत्तर बेंचमार्क है जिसमें 86 माइम गतिविधियाँ शामिल हैं। यह मोशन कैप्चर डेटा के आधार पर विभिन्न परिवर्तनों और ध्वनियों को जोड़कर मॉडलों की मज़बूती का मूल्यांकन करता है। प्रायोगिक परिणाम दर्शाते हैं कि मौजूदा दृश्य-भाषा मॉडल MIME पर मनुष्यों की तुलना में काफ़ी कमज़ोर प्रदर्शन करते हैं, जो अधिक मज़बूत मानवीय हाव-भाव समझने की क्षमता वाले मॉडलों की आवश्यकता का सुझाव देता है।

Takeaways, Limitations

Takeaways:
माइम (MIME) का उपयोग करके अशाब्दिक संचार समझ का आकलन करने के लिए एक नया मानक प्रस्तुत करना।
यह स्पष्ट रूप से मौजूदा दृश्य-मौखिक मॉडलों में अशाब्दिक संचार समझ की कमी को दर्शाता है और भविष्य के अनुसंधान की दिशा सुझाता है।
मोशन कैप्चर डेटा के आधार पर विभिन्न विकृतियों और शोर सहित मॉडलों की मजबूती का मूल्यांकन करें।
Limitations:
MIME एक MIME-विशिष्ट बेंचमार्क है, जिसकी सामान्य NVC समझ में सीमाएं हो सकती हैं।
यह मोशन कैप्चर डेटा पर आधारित है और वास्तविक दुनिया में विभिन्न NVC स्थितियों को पूरी तरह से प्रतिबिंबित नहीं कर सकता है।
वर्तमान मॉडल प्रदर्शन का मूल्यांकन करने के लिए उपयोग किए जाने वाले दृश्य-भाषा मॉडल के प्रकार और उनके विशिष्ट प्रदर्शन आंकड़े प्रदान नहीं किए गए हैं, जिससे सामान्यीकरण मुश्किल हो सकता है।
👍