[공지사항]을 빙자한 안부와 근황 
Show more

दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

कोडअसिस्टबेंच (CAB): मल्टी-टर्न चैट-आधारित कोड सहायता के लिए डेटासेट और बेंचमार्किंग

Created by
  • Haebom

लेखक

मयोंगसू किम, श्वेता गर्ग, बैशाखी रे, वरुण कुमार, अनूप देवरस

रूपरेखा

इस पत्र में, हम CodeAssistBench (CAB) प्रस्तुत करते हैं, जो मौजूदा कोड-जनरेशन-केंद्रित बेंचमार्क की सीमाओं को पार करने हेतु वास्तविक कोडबेस का उपयोग करके बहु-राउंड प्रोग्रामिंग समर्थन के मूल्यांकन हेतु एक नवीन बेंचमार्क ढाँचा है। CAB, GitHub समस्या डेटा का उपयोग करके एक स्वचालित रूप से स्केलेबल डेटासेट तैयार करता है और कंटेनरीकृत कोडबेस परिवेशों में मॉडलों का मूल्यांकन करता है। हम 231 रिपॉजिटरी, 7 प्रोग्रामिंग भाषाओं और 3,286 वास्तविक प्रोग्रामिंग प्रश्नों वाले एक परीक्षण सेट पर अग्रणी बड़े पैमाने के भाषा मॉडल (LLM) का मूल्यांकन करते हैं। हमने पाया कि जटिल परियोजना परिवेशों में उनका प्रदर्शन एकल-प्रश्न उत्तर देने की तुलना में काफ़ी कम है (CAB प्रश्नों के लिए 16.49% तक, जबकि स्टैक ओवरफ़्लो प्रश्नों के लिए 70-83%)। यह सरल प्रश्न उत्तर देने और जटिल, परियोजना-विशिष्ट स्थितियों में समर्थन प्रदान करने के बीच एक महत्वपूर्ण प्रदर्शन अंतर को दर्शाता है।

Takeaways, Limitations

Takeaways:
वास्तविक कोड बेस का उपयोग करके बहु-दौर प्रोग्रामिंग समर्थन मूल्यांकन के महत्व पर जोर दिया गया।
एक नया बेंचमार्क फ्रेमवर्क (सीएबी) प्रस्तुत किया जा रहा है जो मौजूदा बेंचमार्क की सीमाओं को दूर करता है।
वास्तविक वातावरण में LLM लागू करते समय प्रदर्शन में गिरावट की समस्या को स्पष्ट रूप से प्रस्तुत करें।
जटिल परियोजना संदर्भों में प्रोग्रामिंग सहायता प्रौद्योगिकियों के विकास की आवश्यकता को उठाना।
Limitations:
CAB डेटासेट का दायरा एक विशिष्ट GitHub रिपॉजिटरी तक सीमित हो सकता है।
स्वचालित रूप से उत्पन्न डेटासेट की गुणवत्ता और विविधता का और अधिक सत्यापन आवश्यक है।
यह वास्तविक उपयोगकर्ता स्थितियों को पूरी तरह से प्रतिबिंबित नहीं कर सकता है।
मूल्यांकन में प्रयुक्त एलएलएम के प्रकार और संस्करण का स्पष्ट विवरण होना आवश्यक है।
👍