दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

CHIRP: दृष्टि-भाषा मॉडल में खुले-अंत वाले प्रतिक्रिया मूल्यांकन के लिए एक सूक्ष्म मानदंड

Created by
  • Haebom

लेखक

एलेक्सिस रोजर, प्रतीक ह्यूमेन, डैनियल जेड कपलान, क्षितिज गुप्ता, क्यूई सन, जॉर्ज एडमोपोलोस, जोनाथन सिउ ची लिम, क्वेंटिन एंथोनी, एडविन फेनेल, इरीना रिश

रूपरेखा

यह शोधपत्र दृष्टि-भाषा मॉडल (वीएलएम) के तेज़ी से बढ़ते क्षेत्र के लिए कठोर और व्यापक मूल्यांकन विधियों और मानकों की आवश्यकता पर प्रकाश डालता है। हम मौजूदा वीएलएम मूल्यांकन तकनीकों (स्वचालित मेट्रिक्स, एआई-आधारित आकलन और विभिन्न कार्यों में मानवीय आकलन सहित) का विश्लेषण करते हैं और रॉबिन का परिचय देते हैं, जो विभिन्न पैमानों पर एलएलएम और वीई को मिलाकर बनाया गया एक नया वीएलएम सूट है। रॉबिन का लाभ उठाते हुए, हम बड़े पैमाने पर मौजूदा मूल्यांकन विधियों की सीमाओं की पहचान करते हैं और इन सीमाओं को दूर करने के लिए, अधिक मज़बूत और संपूर्ण वीएलएम मूल्यांकनों के लिए एक नए दीर्घ-प्रतिक्रिया मानक, चिरप (CHIRP) का प्रस्ताव करते हैं। हम पुनरुत्पादन क्षमता को बढ़ाने और वीएलएम अनुसंधान को आगे बढ़ाने के लिए रॉबिन के प्रशिक्षण कोड, मॉडल सूट और चिरप (CHIRP) मानकों तक खुली पहुँच प्रदान करते हैं।

Takeaways, Limitations

Takeaways:
पैमाने के आधार पर मौजूदा वीएलएम मूल्यांकन विधियों के Limitations का विश्लेषण करके और उन पर काबू पाने के लिए एक नया बेंचमार्क, CHIRP, प्रस्तावित करके वीएलएम अनुसंधान की उन्नति में योगदान दें।
हम रॉबिन नामक एक नया वीएलएम सुइट प्रस्तुत करते हैं, जो विभिन्न पैमानों के एलएलएम और वीई को संयोजित करता है, ताकि वीएलएम अध्ययनों की पुनरुत्पादकता बढ़ाई जा सके।
CHIRP बेंचमार्क और रॉबिन मॉडल और कोड के विमोचन के माध्यम से VLM अनुसंधान समुदाय में योगदान करें।
Limitations:
CHIRP बेंचमार्क के पैमाने और विविधता की आगे समीक्षा आवश्यक हो सकती है।
यह निर्धारित करने के लिए कि अन्य वीएलएम की तुलना में रॉबिन मॉडल कितना अच्छा प्रदर्शन करता है, आगे के विश्लेषण की आवश्यकता हो सकती है।
मानवीय आकलनों के विस्तृत विवरण और विश्वसनीयता विश्लेषण का अभाव हो सकता है।
👍