[공지사항]을 빙자한 안부와 근황 
Show more

दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

एबजेन: वैज्ञानिक अनुसंधान के लिए एब्लेशन अध्ययन डिजाइन और मूल्यांकन में बड़े भाषा मॉडल का मूल्यांकन

Created by
  • Haebom

लेखक

यिलुन झाओ, वेइयुआन चेन, झिजियान जू, मानसी पटवर्धन, यिक्सिन लियू, चेंग्ये वांग, लवकेश विग, अरमान कोहन

रूपरेखा

AbGen वैज्ञानिक अनुसंधान के लिए एब्लेशन अध्ययन डिज़ाइन करने की क्षमता का मूल्यांकन करने हेतु डिज़ाइन किया गया पहला बेंचमार्क है। इसमें 807 एनएलपी पत्रों से लिए गए 1,500 विशेषज्ञ-एनोटेटेड उदाहरण शामिल हैं, और यह एलएलएम को किसी दिए गए शोध संदर्भ में विशिष्ट मॉड्यूल या प्रक्रियाओं के लिए विस्तृत एब्लेशन अध्ययन डिज़ाइन तैयार करने का कार्य सौंपता है। डीपसीक-आर1-0528 और o4-मिनी जैसे अग्रणी एलएलएम के मूल्यांकन परिणाम एब्लेशन अध्ययन डिज़ाइन के महत्व, विश्वसनीयता और सुदृढ़ता के संदर्भ में इन मॉडलों और विशेषज्ञों के बीच महत्वपूर्ण प्रदर्शन अंतर दर्शाते हैं। इसके अलावा, वर्तमान स्वचालित मूल्यांकन विधियाँ मानवीय मूल्यांकनों की तुलना में महत्वपूर्ण अंतर दर्शाती हैं, जो यह दर्शाता है कि वे इस कार्य के लिए अविश्वसनीय हैं। इसकी और जाँच करने के लिए, हमने AbGen-Eval विकसित किया, जो एक मेटा-मूल्यांकन बेंचमार्क है जिसे इस कार्य में एलएलएम प्रदर्शन को मापने के लिए उपयोग की जाने वाली सामान्य स्वचालित मूल्यांकन प्रणालियों की विश्वसनीयता का मूल्यांकन करने के लिए डिज़ाइन किया गया है। AbGen-Eval विभिन्न प्रकार की एलएलएम-एज़-जज प्रणालियों का परीक्षण करता है, और जटिल वैज्ञानिक कार्यों के लिए अधिक प्रभावी और विश्वसनीय एलएलएम-आधारित मूल्यांकन प्रणालियों के विकास में अंतर्दृष्टि प्रदान करता है।

Takeaways, Limitations

Takeaways: AbGen बेंचमार्क, LLM की एब्लेशन अध्ययन डिज़ाइन क्षमता के मूल्यांकन हेतु एक नया मानक प्रदान करता है। यह LLM की प्रदर्शन सीमाओं को स्पष्ट रूप से दर्शाता है और भविष्य के अनुसंधान की दिशाएँ सुझाता है। यह स्वचालित मूल्यांकन प्रणालियों की विश्वसनीयता के मुद्दे को उठाता है और बेहतर मूल्यांकन प्रणालियाँ विकसित करने की आवश्यकता पर बल देता है। AbGen-Eval, LLM-आधारित मूल्यांकन प्रणालियों की विश्वसनीयता में सुधार हेतु अनुसंधान में योगदान देता है।
Limitations: यह वर्तमान मुख्यधारा के एलएलएम में एब्लेशन अध्ययन डिज़ाइन क्षमताओं की कमी को दर्शाता है। स्वचालित मूल्यांकन प्रणालियों की विश्वसनीयता की कमी के कारण एलएलएम प्रदर्शन के मूल्यांकन में आने वाली कठिनाई को दर्शाता है। AbGen बेंचमार्क के डेटासेट आकार और विविधता पर अतिरिक्त शोध की आवश्यकता हो सकती है। यह निर्धारित करने के लिए और शोध की आवश्यकता है कि क्या AbGen-Eval द्वारा प्रदान की गई अंतर्दृष्टि को सभी जटिल वैज्ञानिक कार्यों में सामान्यीकृत किया जा सकता है।
👍