दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

भाषा मॉडल मूल्यांकन के लिए उत्तर मिलान बहुविकल्पीय से बेहतर प्रदर्शन करता है

Created by
  • Haebom

लेखक

निखिल चांडक, शाश्वत गोयल, अमेया प्रभु, मोरित्ज़ हार्ड्ट, जोनास गीपिंग

रूपरेखा

यह शोधपत्र बहुविकल्पीय मूल्यांकन की सीमाओं को इंगित करता है और 'उत्तर मिलान', एक उत्पादक मूल्यांकन पद्धति का प्रस्ताव करता है। बहुविकल्पीय मूल्यांकन वस्तुनिष्ठ और स्वचालित करने में आसान है, लेकिन इसमें प्रश्न को देखे बिना सही उत्तर का अनुमान लगाने में सक्षम होने का नुकसान है। दूसरी ओर, उत्तर मिलान एक ऐसी विधि है जिसमें मॉडल मुक्त रूप में उत्तर उत्पन्न करता है और नवीनतम भाषा मॉडल का उपयोग करके यह निर्धारित करता है कि वे संदर्भ उत्तरों से मेल खाते हैं या नहीं। MMLU-Pro और GPQA-Diamond डेटासेट का उपयोग करके मानव मूल्यांकन और प्रत्येक मूल्यांकन पद्धति के बीच समझौते को मापने के परिणाम दिखाते हैं कि उत्तर मिलान में मनुष्यों के बीच समझौते के करीब एक उच्च सटीकता है, यहां तक ​​कि एक छोटे मॉडल का उपयोग करते समय भी। दूसरी ओर, बहुविकल्पीय मूल्यांकन और संदर्भ उत्तरों के बिना LLM का उपयोग करके मूल्यांकन ने मानव मूल्यांकन के साथ कम समझौता दिखाया। उत्तर मिलान के माध्यम से मूल्यांकन में सुधार करना एक सरल वैचारिक समस्या नहीं है, और उत्तर मिलान द्वारा मुक्त-रूप प्रतिक्रियाओं का मूल्यांकन करते समय विभिन्न मॉडलों की रैंकिंग काफी भिन्न होती है। इसलिए, यह शोधपत्र बहुविकल्पीय मूल्यांकन से उत्तर मिलान तक मूल्यांकन पारिस्थितिकी तंत्र को बदलने के तरीके पर चर्चा करता है।

____T81580_____, Limitations

Takeaways:
बहुविकल्पीय मूल्यांकन की सीमाओं को स्पष्ट रूप से प्रस्तुत करें तथा प्रयोगात्मक रूप से उत्तर मिलान, जो एक सृजनात्मक मूल्यांकन पद्धति है, की श्रेष्ठता को सिद्ध करें।
उत्तर मिलान अधिक सटीक और विश्वसनीय भाषा मॉडल मूल्यांकन को सक्षम बनाता है।
मौजूदा बहुविकल्पीय मूल्यांकन विधियों की समस्याओं का समाधान करता है और भाषा मॉडल मूल्यांकन में प्रतिमान बदलाव प्रस्तुत करता है।
हमने दर्शाया है कि छोटे पैमाने के भाषा मॉडल का उपयोग करते समय भी उत्तर मिलान की सटीकता उच्च है।
Limitations:
उत्तर मिलान की कम्प्यूटेशनल लागत बहुविकल्पीय मूल्यांकन की तुलना में अधिक हो सकती है।
मूल्यांकन परिणामों की सटीकता संदर्भ उत्तरों की गुणवत्ता और मात्रा से प्रभावित हो सकती है।
उत्तर मिलान के लिए प्रयुक्त भाषा मॉडल के प्रदर्शन के आधार पर मूल्यांकन परिणाम भिन्न हो सकते हैं।
यह निर्धारित करने के लिए कि क्या उत्तर मिलान विधि सभी प्रकार के प्रश्नों पर लागू होती है, आगे और शोध की आवश्यकता है।
👍