[공지사항]을 빙자한 안부와 근황 
Show more

दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

वेरिफाईबेंच: विभिन्न डोमेन में तर्क सत्यापनकर्ताओं के मूल्यांकन के लिए एक व्यवस्थित बेंचमार्क

Created by
  • Haebom

लेखक

ज़ुझाओ ली, ज़ुचेन ली, शियू हू, योंगज़ेन गुओ, वेन्ताओ झांग

रूपरेखा

यह शोधपत्र बड़े पैमाने के भाषा मॉडलों (एलएलएम) के सत्यापन की समस्या पर विचार करता है जो सुदृढीकरण अधिगम के माध्यम से अपनी अनुमान क्षमताओं को बढ़ाते हैं। मॉडल-जनित प्रतिक्रियाओं और संदर्भ प्रतिक्रियाओं के बीच संगति सत्यापन, प्रतिक्रियाओं की लंबाई, विविधता और सूक्ष्मता के कारण चुनौतीपूर्ण है। नियम-आधारित सत्यापनकर्ता जटिलता से जूझते हैं, मॉडल-आधारित सत्यापनकर्ताओं का उपयोग किया जाता है, लेकिन विशिष्ट सत्यापनकर्ताओं में लचीलेपन का अभाव होता है, और सामान्य एलएलएम निर्णायकों में भी संगति का अभाव होता है। मौजूदा शोध बेहतर सत्यापनकर्ताओं के निर्माण पर केंद्रित रहा है, लेकिन विभिन्न प्रकार के सत्यापनकर्ताओं के प्रदर्शन के व्यवस्थित अंतर-क्षेत्रीय तुलनात्मक मूल्यांकन का अभाव है, जो सत्यापन योग्य पुरस्कारों (आरएलवीआर) के साथ सुदृढीकरण अधिगम के विश्वसनीय विकास को सीमित करता है। इस समस्या के समाधान के लिए, यह शोधपत्र सत्यापनकर्ताओं के व्यवस्थित मूल्यांकन के लिए एक अंतर-क्षेत्रीय व्यापक मानक, वेरिफाईबेंच (VerifyBench) का प्रस्ताव करता है। इसमें गणित, भौतिकी, रसायन विज्ञान और जीव विज्ञान से संबंधित 4,000 विशेषज्ञ-स्तरीय प्रश्न, साथ ही प्रत्येक प्रश्न के लिए संदर्भ उत्तर और विभिन्न उत्तर शामिल हैं। मूल्यांकन की विश्वसनीयता विशेषज्ञों की एक बहु-विषयक टीम द्वारा संचालित एक कठोर एनोटेशन प्रक्रिया के माध्यम से सुनिश्चित की जाती है। हमने निकाले गए उत्तरों बनाम पूर्ण उत्तरों, लघु आउटपुट बनाम दीर्घ आउटपुट की संयुक्त स्थितियों में विशिष्ट सत्यापनकर्ताओं और सामान्य LLM की प्रदर्शन सीमाओं की व्यापक तुलना करने के लिए एक चार-आयामी प्रयोगात्मक ढाँचा तैयार किया है। मूल्यांकन के परिणाम सत्यापनकर्ताओं में मूलभूत कमियों को उजागर करते हैं: विशिष्ट सत्यापनकर्ता उच्च सटीकता प्राप्त करता है लेकिन स्मरण शक्ति कमज़ोर होती है, जबकि सामान्य मॉडल अधिक व्यापकता प्रदर्शित करता है लेकिन अस्थिर परिशुद्धता से ग्रस्त होता है। इससे भी महत्वपूर्ण बात यह है कि हम इनपुट संरचना के प्रति सत्यापनकर्ता की उच्च संवेदनशीलता और क्रॉस-डोमेन सामान्यीकरण में अंतर्निहित सीमाओं का पता लगाते हैं, जो वर्तमान सत्यापनकर्ता तकनीकों की बाधाओं के बारे में महत्वपूर्ण जानकारी प्रदान करते हैं।

____T372_____, ____T373_____

Takeaways: हमने विभिन्न क्षेत्रों को कवर करते हुए VerifyBench बेंचमार्क के माध्यम से LLM सत्यापनकर्ताओं के प्रदर्शन की व्यवस्थित तुलना और मूल्यांकन के लिए एक आधार स्थापित किया है। विशिष्ट सत्यापनकर्ताओं और सामान्य LLM सत्यापनकर्ताओं के प्रदर्शन अंतर और सीमाओं को स्पष्ट रूप से उजागर करके, हमने LLM सत्यापनकर्ताओं के भविष्य के विकास की दिशा का सुझाव दिया है। हमने इनपुट संरचनाओं और क्षेत्रों में सामान्यीकरण के महत्व पर ज़ोर दिया है, जो भविष्य के शोध के केंद्र बिंदु का सुझाव देता है।
Limitations: वेरिफाईबेंच में 4,000 प्रश्न हैं, लेकिन बेंचमार्क की व्यापकता को और अधिक प्रकार के प्रश्नों और उत्तरों को शामिल करके बढ़ाने की आवश्यकता है। वर्तमान बेंचमार्क में प्रयुक्त विशेषज्ञ मूल्यांकनों की व्यक्तिपरकता को कम करने के लिए अतिरिक्त शोध की आवश्यकता है। यद्यपि क्रॉस-डोमेन सामान्यीकरण की सीमाएँ सामने आईं, लेकिन उन्हें दूर करने के लिए कोई विशिष्ट समाधान प्रस्तुत नहीं किया गया।
👍