[공지사항]을 빙자한 안부와 근황 
Show more

दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

तर्क-आधारित पोज़ अनुमान बेंचमार्क में विश्वसनीयता पर पुनर्विचार

Created by
  • Haebom

लेखक

जुनसु किम, न्युन किम, जेहो ली, इंचियोल पार्क, डोंगयून हान, सेउंग्रील बाक

रूपरेखा

यह शोधपत्र तर्क-आधारित पोज़ अनुमान (RPE) बेंचमार्क की पुनरुत्पादकता और गुणवत्ता संबंधी समस्याओं पर विचार करता है। RPE बेंचमार्क का व्यापक रूप से पोज़-अवेयर मल्टीमॉडल लार्ज-स्केल लैंग्वेज मॉडल्स (MLLMs) के मूल्यांकन हेतु एक मानक के रूप में उपयोग किया जाता है। हालाँकि, हम बताते हैं कि मूल 3DPW डेटासेट से भिन्न छवि सूचकांकों का उपयोग करके सटीक GT एनोटेशन प्राप्त करने के लिए एक मैन्युअल मिलान प्रक्रिया की आवश्यकता होती है। हम बेंचमार्क गुणवत्ता की सीमाओं, जैसे छवि ओवरलैप, परिदृश्य असंतुलन, सरल पोज़ और अस्पष्ट पाठ विवरण, का भी विश्लेषण करते हैं। इन समस्याओं के समाधान के लिए, हम GT एनोटेशन में सुधार करते हैं और उन्हें ओपन-सोर्स करते हैं ताकि सुसंगत मात्रात्मक मूल्यांकन और MLLM उन्नयन को सुगम बनाया जा सके।

Takeaways, Limitations

Takeaways:
आरपीई बेंचमार्क में पुनरुत्पादन संबंधी मुद्दों को संबोधित करता है और निष्पक्ष और सुसंगत मात्रात्मक मूल्यांकन को सक्षम करने के लिए सटीक जीटी एनोटेशन प्रदान करता है
उन्नत जीटी एनोटेशन को ओपन-सोर्सिंग के माध्यम से अनुसंधान पुनरुत्पादन और पारदर्शिता में सुधार
भविष्य के आसन-जागरूक बहु-मोडल अनुमान मॉडल के विकास में योगदान करें
Limitations:
आरपीई बेंचमार्क की मूलभूत सीमाएं अभी भी मौजूद हैं, जैसे छवि दोहराव, परिदृश्य असंतुलन, सरल पोज़ और अस्पष्ट पाठ विवरण।
बेहतर जी.टी. एनोटेशन अनुसंधान टीम के व्यक्तिपरक निर्णय पर निर्भर हो सकता है और यह एक आदर्श समाधान नहीं हो सकता है।
बेंचमार्क की मूलभूत डिज़ाइन समस्याओं के समाधान का अभाव
👍