दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

रेपो डीप सर्च के लिए टूल-एकीकृत सुदृढीकरण सीखना

Created by
  • Haebom

लेखक

ज़ेक्सियोंग मा, चाओ पेंग, कुन्होंग ज़ेंग, पेंगफ़ेई गाओ, यानज़ेन ज़ोउ, बिंग झी

रूपरेखा

यह शोधपत्र सॉफ़्टवेयर समस्या स्थानीयकरण, यानी उन कोड स्थानों की पहचान करने की प्रक्रिया पर केंद्रित है जिनमें सॉफ़्टवेयर समस्याओं के समाधान हेतु संशोधन की आवश्यकता होती है। प्राकृतिक भाषा समस्या विवरणों और दोषपूर्ण कोड के बीच अर्थगत अंतर को कोड निर्भरताओं के माध्यम से जटिल, बहु-चरणीय तर्क की आवश्यकता होती है। मौजूदा LLM-आधारित एजेंट रिपॉजिटरी खोज उपकरणों को एकीकृत करके इस समस्या का समाधान करने का प्रयास करते हैं, लेकिन यह "रिपो डीप सर्च" नामक एक चुनौतीपूर्ण कार्य में परिवर्तित हो जाता है, जिसके लिए LLM को बहु-चरणीय अनुमान और अन्वेषण प्रक्रिया के दौरान कई रिपॉजिटरी खोज उपकरणों का प्रभावी ढंग से उपयोग करने की आवश्यकता होती है। इस चुनौती का समाधान करने के लिए, यह शोधपत्र ToolTrain प्रस्तुत करता है, जो एक द्वि-चरणीय उपकरण-एकीकरण प्रशिक्षण ढाँचा है जो अस्वीकृति-नमूना पर्यवेक्षित फ़ाइन-ट्यूनिंग और उपकरण-एकीकृत सुदृढीकरण अधिगम को संयोजित करता है। प्रायोगिक परिणाम दर्शाते हैं कि ToolTrain से प्रशिक्षित मॉडल अत्याधुनिक प्रदर्शन प्राप्त करते हैं, जिसमें 32B मॉडल फ़ंक्शन-स्तरीय स्थानीयकरण में क्लाउड-3.7 से बेहतर प्रदर्शन करता है। इसके अलावा, हम प्रदर्शित करते हैं कि बेहतर स्थानीयकरण प्रदर्शन बेहतर एंड-टू-एंड समस्या समाधान में परिवर्तित होता है, जो दर्शाता है कि समस्या स्थानीयकरण के लिए प्रशिक्षण स्वचालित सॉफ़्टवेयर विकास में सुधार के लिए एक व्यवहार्य और प्रभावी रणनीति है।

Takeaways, Limitations

Takeaways:
हम प्रदर्शित करते हैं कि टूलट्रेन फ्रेमवर्क, एलएलएम के रिपोजिटरी खोज उपकरणों का लाभ उठाने की क्षमता को बढ़ाकर सॉफ्टवेयर समस्या स्थानीयकरण प्रदर्शन में महत्वपूर्ण सुधार कर सकता है।
32B मॉडल क्लाउड-3.7 से बेहतर प्रदर्शन करता है, जो LLM-आधारित समस्या स्थानीयकरण की क्षमता का सुझाव देता है।
हम समस्या स्थानीयकरण प्रशिक्षण की प्रभावशीलता को यह प्रदर्शित करके प्रदर्शित करते हैं कि बेहतर स्थानीयकरण प्रदर्शन से अंत-से-अंत तक समस्या समाधान प्रदर्शन में सुधार होता है।
स्वचालित सॉफ्टवेयर विकास में सुधार के लिए एक नई रणनीति प्रस्तुत करना।
Limitations:
टूलट्रेन फ्रेमवर्क के सामान्यीकरण प्रदर्शन और विभिन्न सॉफ्टवेयर परियोजनाओं में इसकी प्रयोज्यता पर आगे अनुसंधान की आवश्यकता है।
परिणाम एलएलएम (32बी) के एक विशिष्ट आकार पर केंद्रित हैं, और अन्य आकारों के एलएलएम के लिए प्रदर्शन मूल्यांकन का अभाव है।
प्रायोगिक डेटासेट की विशेषताओं के आधार पर प्रदर्शन पूर्वाग्रह की संभावना है।
जटिल कोडबेस या एकाधिक प्रोग्रामिंग भाषाओं के प्रति मजबूती के लिए आगे मूल्यांकन की आवश्यकता है।
👍