यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है। यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है। पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।
यह शोधपत्र इस समस्या का समाधान करता है कि बड़े पैमाने के भाषा मॉडल (LLM) की कोड निर्माण क्षमता को बाहरी लाइब्रेरी API के बार-बार अपडेट के अनुकूल होने में कठिनाई होती है। ऐसा इसलिए है क्योंकि LLM अपने प्रशिक्षण डेटा में पुरानी API जानकारी पर निर्भर करते हैं। इस समस्या के समाधान के लिए, हम ReCode (कोड अपडेट के लिए नियम-आधारित सुदृढीकरण अधिगम) प्रस्तावित करते हैं, जो एक नया ढाँचा है जो मानव प्रोग्रामरों द्वारा API परिवर्तनों के अनुकूल होने के तरीके की नकल करता है। ReCode, लगभग 2,000 डेटा आइटमों के डेटासेट का उपयोग करके अद्यतन जानकारी के आधार पर संस्करण माइग्रेशन करने के लिए LLM को प्रशिक्षित करता है। हम सुदृढीकरण अधिगम के लिए एक पुरस्कार के रूप में एक संशोधित स्ट्रिंग समानता मीट्रिक भी प्रस्तुत करते हैं। प्रायोगिक परिणाम दर्शाते हैं कि ReCode गतिशील API परिदृश्यों में, विशेष रूप से अनदेखे CodeUpdateArena कार्य में, LLM के कोड निर्माण प्रदर्शन में उल्लेखनीय सुधार करता है। विशेष रूप से, पर्यवेक्षित अधिगम फ़ाइन-ट्यूनिंग की तुलना में, ReCode का LLM की सामान्य कोड निर्माण क्षमता पर कम प्रभाव पड़ता है। हम विभिन्न LLM और सुदृढीकरण अधिगम एल्गोरिदम (GRPO और DAPO) पर ReCode लागू करते हैं और लगातार प्रदर्शन सुधार प्राप्त करते हैं। विशेष रूप से, प्रशिक्षण के बाद, Qwen2.5-Coder-7B ने समान आर्किटेक्चर वाले 32B पैरामीटर कोड डायरेक्टिव फ़ाइन-ट्यूनिंग मॉडल और इंफ़रेंस मॉडल से बेहतर प्रदर्शन किया। कोड https://github.com/zjunlp/ReCode में पाया जा सकता है ।