AbGen वैज्ञानिक अनुसंधान के लिए एब्लेशन अध्ययन डिज़ाइन करने की क्षमता का मूल्यांकन करने हेतु डिज़ाइन किया गया पहला बेंचमार्क है। इसमें 807 एनएलपी पत्रों से लिए गए 1,500 विशेषज्ञ-एनोटेटेड उदाहरण शामिल हैं, और यह एलएलएम को किसी दिए गए शोध संदर्भ में विशिष्ट मॉड्यूल या प्रक्रियाओं के लिए विस्तृत एब्लेशन अध्ययन डिज़ाइन तैयार करने का कार्य सौंपता है। डीपसीक-आर1-0528 और o4-मिनी जैसे अग्रणी एलएलएम के मूल्यांकन परिणाम एब्लेशन अध्ययन डिज़ाइन के महत्व, विश्वसनीयता और सुदृढ़ता के संदर्भ में इन मॉडलों और विशेषज्ञों के बीच महत्वपूर्ण प्रदर्शन अंतर दर्शाते हैं। इसके अलावा, वर्तमान स्वचालित मूल्यांकन विधियाँ मानवीय मूल्यांकनों की तुलना में महत्वपूर्ण अंतर दर्शाती हैं, जो यह दर्शाता है कि वे इस कार्य के लिए अविश्वसनीय हैं। इसकी और जाँच करने के लिए, हमने AbGen-Eval विकसित किया, जो एक मेटा-मूल्यांकन बेंचमार्क है जिसे इस कार्य में एलएलएम प्रदर्शन को मापने के लिए उपयोग की जाने वाली सामान्य स्वचालित मूल्यांकन प्रणालियों की विश्वसनीयता का मूल्यांकन करने के लिए डिज़ाइन किया गया है। AbGen-Eval विभिन्न प्रकार की एलएलएम-एज़-जज प्रणालियों का परीक्षण करता है, और जटिल वैज्ञानिक कार्यों के लिए अधिक प्रभावी और विश्वसनीय एलएलएम-आधारित मूल्यांकन प्रणालियों के विकास में अंतर्दृष्टि प्रदान करता है।