दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

UFEval: कार्य और पहलू सामान्यीकरण के साथ एकीकृत सूक्ष्म मूल्यांकन

Created by
  • Haebom

लेखक

शिबो होंग, जियाहाओ यिंग, हैयुआन लियांग, मेंगडी झांग, जून कुआंग, जियाझेंग झांग, यिक्सिन काओ

रूपरेखा

बड़े पैमाने के मल्टीमॉडल मॉडलों के ओपन-एंडेड आउटपुट मूल्यांकन की चुनौतियों का समाधान करने के लिए, यह शोधपत्र UFEval का प्रस्ताव करता है, जो एक सूक्ष्म मूल्यांकनकर्ता है जो अनेक कार्यों और पहलुओं को एकीकृत करता है। UFEval एक पदानुक्रमित पहलू वर्गीकरण पर आधारित है जिसमें चार कार्यों में 112 सूक्ष्म पहलुओं को शामिल किया गया है: प्राकृतिक भाषा निर्माण, छवि समझ, छवि निर्माण, और क्रॉस-टेक्स्ट और छवि निर्माण। हमने UFEval को FRABench पर प्रशिक्षित किया, जो एक सूक्ष्म मूल्यांकन डेटासेट है जिसमें 64,000 युग्मित तुलनात्मक नमूने और 325,000 मूल्यांकन लेबल शामिल हैं। प्रायोगिक परिणाम प्रदर्शित करते हैं कि विशिष्ट पहलुओं पर सीखने से अनदेखे पहलुओं का सामान्यीकरण संभव होता है, और अनेक कार्यों और पहलुओं पर संयुक्त सीखने से पारस्परिक रूप से लाभकारी परिणाम प्राप्त होते हैं।

Takeaways, Limitations

Takeaways:
हम विभिन्न प्रकार के कार्यों और तौर-तरीकों को कवर करते हुए एक एकीकृत और सूक्ष्म बहुविध मॉडल मूल्यांकन मानदंड प्रस्तुत करते हैं।
विशिष्ट पहलुओं को सीखकर अदृश्य पहलुओं के सामान्यीकरण की संभावना का सुझाव देना।
विभिन्न कार्यों और पहलुओं में सहयोगात्मक शिक्षण के सहक्रियात्मक प्रभावों की पहचान करना।
FRABench द्वारा प्रदान किया गया एक बड़े पैमाने पर बहु-मोडल, पहलू-स्तरीय मूल्यांकन डेटासेट।
Limitations:
FRABench डेटासेट पर मानव और GPT-4o एनोटेशन की विश्वसनीयता और पूर्वाग्रह की आगे की समीक्षा की आवश्यकता है।
अन्य मूल्यांकन पद्धतियों के साथ प्रस्तावित UFEval के प्रदर्शन के तुलनात्मक विश्लेषण का अभाव है।
112-आइटम वर्गीकरण प्रणाली की व्यापकता और उपयुक्तता के संबंध में आगे चर्चा की आवश्यकता है।
UFEval की सामान्यीकरण क्षमता निर्धारित करने के लिए अधिक व्यापक प्रयोगों और विश्लेषणों की आवश्यकता है।
👍