दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

साइरिप्लिकेट-बेंच: शोध पत्रों से एजेंट-संचालित एल्गोरिदमिक पुनरुत्पादन में एलएलएम की बेंचमार्किंग

Created by
  • Haebom

लेखक

यानझेंग जियांग, हांकी यान, शुयिन ओयांग, लिन गुई, युलान हे

रूपरेखा

यह अध्ययन बड़े पैमाने के भाषा मॉडल (एलएलएम) का मूल्यांकन करता है जो हाल के एनएलपी पत्रों में एल्गोरिदम विवरणों से कोड उत्पन्न करते हैं। इस कार्य के लिए दो मुख्य दक्षताओं की आवश्यकता होती है: एल्गोरिथम समझ (कार्यान्वयन तर्क को समझने के लिए पत्रों और अकादमिक साहित्य से जानकारी को संश्लेषित करने की क्षमता) और कोडिंग विशेषज्ञता (निर्भरता की पहचान करने और आवश्यक एपीआई को सही ढंग से लागू करने की क्षमता)। कठोर मूल्यांकन सुनिश्चित करने के लिए, हम साइरिप्लिकेट-बेंच प्रस्तुत करते हैं, जो 2024 में प्रकाशित 36 एनएलपी पत्रों के 100 कार्यों से युक्त एक बेंचमार्क है। इस बेंचमार्क में विस्तृत एनोटेशन और व्यापक परीक्षण मामले शामिल हैं। साइरिप्लिकेट-बेंच पर निर्माण करते हुए, हम साइ-रिप्रोड्यूसर का प्रस्ताव करते हैं, जो एक दोहरे-एजेंट फ्रेमवर्क है जिसमें एक पेपर एजेंट शामिल है, जो साहित्य से एल्गोरिथम अवधारणाओं की व्याख्या करता है, और एक कोड एजेंट, कार्यान्वयन गुणवत्ता का आकलन करने के लिए, हम निष्पादन सटीकता, CodeBLEU, और रिपॉजिटरी निर्भरता/API रिकॉल मेट्रिक्स का उपयोग करते हैं। अपने प्रयोगों में, हम विभिन्न मज़बूत गैर-अनुमान और अनुमान LLM का मूल्यांकन आधारभूत मॉडल के रूप में करते हैं। \ModelName का उपयोग करने वाले सर्वश्रेष्ठ प्रदर्शन करने वाले LLM ने केवल 39% सटीकता प्राप्त की, जो बेंचमार्किंग की कठिनाई को दर्शाता है। हमारे विश्लेषण से पता चला कि अनुपलब्ध या असंगत एल्गोरिथम विवरण सफल पुनरुत्पादन में एक बड़ी बाधा थे। बेंचमार्क और कोड https://github.com/xyzCS/SciReplicate-Bench पर उपलब्ध हैं , और परियोजना का मुखपृष्ठ https://xyzcs.github.io/scireplicate.github.io/에서 पर उपलब्ध है ।

Takeaways, Limitations

Takeaways:
एलएलएम की एल्गोरिथम समझ और कोड निर्माण कौशल के लिए कठोर मूल्यांकन मानदंड और बेंचमार्क (साइकरिपलेट-बेंच) प्रदान करता है।
एल्गोरिदम समझ और कोड कार्यान्वयन क्षमताओं (अनुमान ग्राफ सटीकता, निष्पादन सटीकता, CodeBLEU, रिपोजिटरी निर्भरता/API रिकॉल) के मूल्यांकन के लिए नए मेट्रिक्स का परिचय।
वर्तमान एलएलएम एल्गोरिथम पुनरुत्पादनशीलता (सर्वोत्तम प्रदर्शन करने वाले मॉडलों की कम निष्पादन सटीकता) की सीमाओं को स्पष्ट रूप से उजागर करता है।
हम दिखाते हैं कि एल्गोरिथम विवरण की गुणवत्ता का कोड निर्माण की सफलता पर महत्वपूर्ण प्रभाव पड़ता है।
Limitations:
बेंचमार्क में शामिल कागजात और कार्यों की संख्या सीमित हो सकती है।
मूल्यांकन संकेतकों पर व्यापक विचार आवश्यक है, तथा विशिष्ट संकेतकों के प्रति पूर्वाग्रह की संभावना है।
प्रयुक्त एलएलएम के प्रकार सीमित हो सकते हैं, तथा मॉडलों की व्यापक श्रेणी का मूल्यांकन करने की आवश्यकता है।
एल्गोरिथम विवरण की अपूर्णता जैसे बाह्य कारकों के प्रभाव को पूरी तरह से खारिज करना कठिन है।
👍