यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है। यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है। पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।
CHIRP: दृष्टि-भाषा मॉडल में खुले-अंत वाले प्रतिक्रिया मूल्यांकन के लिए एक सूक्ष्म मानदंड
Created by
Haebom
लेखक
एलेक्सिस रोजर, प्रतीक ह्यूमेन, डैनियल जेड कपलान, क्षितिज गुप्ता, क्यूई सन, जॉर्ज एडमोपोलोस, जोनाथन सिउ ची लिम, क्वेंटिन एंथोनी, एडविन फेनेल, इरीना रिश
रूपरेखा
यह शोधपत्र दृष्टि-भाषा मॉडल (वीएलएम) के तेज़ी से बढ़ते क्षेत्र के लिए कठोर और व्यापक मूल्यांकन विधियों और मानकों की आवश्यकता पर प्रकाश डालता है। हम मौजूदा वीएलएम मूल्यांकन तकनीकों (स्वचालित मेट्रिक्स, एआई-आधारित आकलन और विभिन्न कार्यों में मानवीय आकलन सहित) का विश्लेषण करते हैं और रॉबिन का परिचय देते हैं, जो विभिन्न पैमानों पर एलएलएम और वीई को मिलाकर बनाया गया एक नया वीएलएम सूट है। रॉबिन का लाभ उठाते हुए, हम बड़े पैमाने पर मौजूदा मूल्यांकन विधियों की सीमाओं की पहचान करते हैं और इन सीमाओं को दूर करने के लिए, अधिक मज़बूत और संपूर्ण वीएलएम मूल्यांकनों के लिए एक नए दीर्घ-प्रतिक्रिया मानक, चिरप (CHIRP) का प्रस्ताव करते हैं। हम पुनरुत्पादन क्षमता को बढ़ाने और वीएलएम अनुसंधान को आगे बढ़ाने के लिए रॉबिन के प्रशिक्षण कोड, मॉडल सूट और चिरप (CHIRP) मानकों तक खुली पहुँच प्रदान करते हैं।
Takeaways, Limitations
•
Takeaways:
◦
पैमाने के आधार पर मौजूदा वीएलएम मूल्यांकन विधियों के Limitations का विश्लेषण करके और उन पर काबू पाने के लिए एक नया बेंचमार्क, CHIRP, प्रस्तावित करके वीएलएम अनुसंधान की उन्नति में योगदान दें।
◦
हम रॉबिन नामक एक नया वीएलएम सुइट प्रस्तुत करते हैं, जो विभिन्न पैमानों के एलएलएम और वीई को संयोजित करता है, ताकि वीएलएम अध्ययनों की पुनरुत्पादकता बढ़ाई जा सके।
◦
CHIRP बेंचमार्क और रॉबिन मॉडल और कोड के विमोचन के माध्यम से VLM अनुसंधान समुदाय में योगदान करें।
•
Limitations:
◦
CHIRP बेंचमार्क के पैमाने और विविधता की आगे समीक्षा आवश्यक हो सकती है।
◦
यह निर्धारित करने के लिए कि अन्य वीएलएम की तुलना में रॉबिन मॉडल कितना अच्छा प्रदर्शन करता है, आगे के विश्लेषण की आवश्यकता हो सकती है।
◦
मानवीय आकलनों के विस्तृत विवरण और विश्वसनीयता विश्लेषण का अभाव हो सकता है।