[공지사항]을 빙자한 안부와 근황 
Show more

दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

बड़े दृष्टि-भाषा मॉडल के लिए एकीकृत त्रिक-स्तरीय मतिभ्रम मूल्यांकन

Created by
  • Haebom

लेखक

जुन्जी वू, त्स्ज़ टिंग चुंग, काई चेन, दित-यान युंग

रूपरेखा

यह शोधपत्र बड़े पैमाने के दृष्टि-भाषा मॉडल (LVLM) में मतिभ्रम की समस्या, विशेष रूप से संबंध मतिभ्रम की समस्या, पर केंद्रित है। पिछले शोधपत्रों के विपरीत, जो मुख्यतः वस्तुओं के मतिभ्रम पर केंद्रित थे, यह शोधपत्र एक एकीकृत ढाँचा प्रस्तुत करता है जो वस्तुओं और संबंधों, दोनों पर एक साथ विचार करता है। इस उद्देश्य से, हम एक नया मानक, ट्राई-एचई, प्रस्तावित करते हैं जो (वस्तु, संबंध, वस्तु) त्रिक का उपयोग करके मतिभ्रम का मूल्यांकन करता है। ट्राई-एचई पर प्रायोगिक परिणाम दर्शाते हैं कि संबंध मतिभ्रम, वस्तु मतिभ्रम से कहीं अधिक गंभीर समस्या है, और हम इसे कम करने के लिए एक सरल, प्रशिक्षण-मुक्त दृष्टिकोण प्रस्तुत करते हैं। डेटासेट और कोड सार्वजनिक रूप से उपलब्ध हैं।

Takeaways, Limitations

Takeaways:
हम संबंधपरक तथा वस्तु मतिभ्रम समस्याओं का व्यवस्थित मूल्यांकन करने के लिए एक नया मानक, ट्राई-एचई, प्रस्तुत करते हैं।
प्रयोगात्मक रूप से यह प्रदर्शित किया गया है कि संबंधपरक मतिभ्रम, वस्तु मतिभ्रम की तुलना में अधिक गंभीर समस्या है।
संबंध संबंधी मतिभ्रम की समस्याओं को कम करने के लिए एक प्रभावी, गैर-प्रशिक्षण विधि का सुझाव देना।
एलवीएलएम की विश्वसनीयता में सुधार के लिए महत्वपूर्ण अनुसंधान दिशा-निर्देश सुझाना।
Limitations:
प्रस्तावित प्रशिक्षण-मुक्त विधि की प्रदर्शन सुधार सीमा सीमित हो सकती है।
ट्राई-एचई बेंचमार्क सभी प्रकार के संबंधपरक मतिभ्रमों को व्यापक रूप से कवर नहीं कर सकता है।
अधिक जटिल और विविध दृश्य संबंधों के लिए मतिभ्रम के आगे मूल्यांकन की आवश्यकता हो सकती है।
👍