[공지사항]을 빙자한 안부와 근황 
Show more

दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

रीकोड: सुदृढीकरण सीखने के साथ कोड एपीआई ज्ञान को अद्यतन करना

Created by
  • Haebom

लेखक

हाओज़े वू, युन्झी याओ, वेन्हाओ यू, हुआजुन चेन, निंग्यु झांग

रूपरेखा

यह शोधपत्र इस समस्या का समाधान करता है कि बड़े पैमाने के भाषा मॉडल (LLM) की कोड निर्माण क्षमता को बाहरी लाइब्रेरी API के बार-बार अपडेट के अनुकूल होने में कठिनाई होती है। ऐसा इसलिए है क्योंकि LLM अपने प्रशिक्षण डेटा में पुरानी API जानकारी पर निर्भर करते हैं। इस समस्या के समाधान के लिए, हम ReCode (कोड अपडेट के लिए नियम-आधारित सुदृढीकरण अधिगम) प्रस्तावित करते हैं, जो एक नया ढाँचा है जो मानव प्रोग्रामरों द्वारा API परिवर्तनों के अनुकूल होने के तरीके की नकल करता है। ReCode, लगभग 2,000 डेटा आइटमों के डेटासेट का उपयोग करके अद्यतन जानकारी के आधार पर संस्करण माइग्रेशन करने के लिए LLM को प्रशिक्षित करता है। हम सुदृढीकरण अधिगम के लिए एक पुरस्कार के रूप में एक संशोधित स्ट्रिंग समानता मीट्रिक भी प्रस्तुत करते हैं। प्रायोगिक परिणाम दर्शाते हैं कि ReCode गतिशील API परिदृश्यों में, विशेष रूप से अनदेखे CodeUpdateArena कार्य में, LLM के कोड निर्माण प्रदर्शन में उल्लेखनीय सुधार करता है। विशेष रूप से, पर्यवेक्षित अधिगम फ़ाइन-ट्यूनिंग की तुलना में, ReCode का LLM की सामान्य कोड निर्माण क्षमता पर कम प्रभाव पड़ता है। हम विभिन्न LLM और सुदृढीकरण अधिगम एल्गोरिदम (GRPO और DAPO) पर ReCode लागू करते हैं और लगातार प्रदर्शन सुधार प्राप्त करते हैं। विशेष रूप से, प्रशिक्षण के बाद, Qwen2.5-Coder-7B ने समान आर्किटेक्चर वाले 32B पैरामीटर कोड डायरेक्टिव फ़ाइन-ट्यूनिंग मॉडल और इंफ़रेंस मॉडल से बेहतर प्रदर्शन किया। कोड https://github.com/zjunlp/ReCode में पाया जा सकता है ।

____T37050_____, ____T37051_____

Takeaways:
एलएलएम के गतिशील एपीआई वातावरण में कोड निर्माण प्रदर्शन को बेहतर बनाने के लिए एक प्रभावी विधि प्रस्तुत करना
सुदृढीकरण अधिगम-आधारित रीकोड फ्रेमवर्क का पर्यवेक्षित अधिगम की तुलना में LLM की सामान्य कोड निर्माण क्षमता पर कम नकारात्मक प्रभाव पड़ता है
विभिन्न एलएलएम और सुदृढीकरण सीखने के एल्गोरिदम के लिए प्रयोज्यता और उत्कृष्ट प्रदर्शन का सत्यापन (Qwen2.5-Coder-7B का उत्कृष्ट प्रदर्शन)
वास्तविक दुनिया के API अपडेट के लिए बेहतर अनुकूलनशीलता
Limitations:
डेटासेट का आकार बढ़ाने की आवश्यकता है क्योंकि वर्तमान में इसे 2,000 डेटा आइटमों के साथ प्रशिक्षित किया गया है।
विभिन्न API और प्रोग्रामिंग भाषाओं में सामान्यीकरण प्रदर्शन पर और अधिक शोध की आवश्यकता है।
वास्तविक वातावरण में रीकोड की दीर्घकालिक स्थिरता और रखरखाव की समीक्षा करने की आवश्यकता है
प्रयुक्त स्ट्रिंग समानता मीट्रिक की सीमाएँ और सुधार की संभावनाएँ
👍