[공지사항]을 빙자한 안부와 근황

दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

EgoVLA: अहंकारी मानव वीडियो से दृष्टि-भाषा-क्रिया मॉडल सीखना

उच्च निष्ठा, उत्पादक प्रसार मॉडल के लिए संरचनागत असतत अव्यक्त कोड

MERA कोड: विभिन्न कार्यों में कोड निर्माण के मूल्यांकन के लिए एक एकीकृत ढाँचा

प्रगतिशील परत जमने के साथ साइट-स्तर पर बारीक ट्यूनिंग: अत्यंत समयपूर्व जन्मे शिशुओं में पहले दिन के छाती के रेडियोग्राफ से ब्रोंकोपल्मोनरी डिस्प्लेसिया की मजबूत भविष्यवाणी की ओर

जलवायु-प्रासंगिक रोबोटिक्स अनुसंधान के लिए एक रोडमैप

निष्पक्षता पर्याप्त नहीं: एआई-संचालित रिज्यूमे स्क्रीनिंग में ऑडिटिंग क्षमता और अंतर्विभागीय पूर्वाग्रह

MMOne: एक दृश्य में कई तौर-तरीकों का प्रतिनिधित्व

SWE-MERA: सॉफ्टवेयर इंजीनियरिंग कार्यों पर बड़े भाषा मॉडल का एजेंटिक मूल्यांकन करने के लिए एक गतिशील बेंचमार्क

कोडअसिस्टबेंच (CAB): मल्टी-टर्न चैट-आधारित कोड सहायता के लिए डेटासेट और बेंचमार्किंग

फाउंडेशन मॉडल की (लगभग) निःशुल्क मोडैलिटी सिलाई

क्रॉस-मोडल सिमेंटिक गाइडेंस और मल्टी-लेवल फ़ीचर फ़्यूज़न के साथ CLIP और 3D U-Net पर आधारित एक ब्रेन ट्यूमर सेगमेंटेशन विधि

केएन: मल्टीमॉडल फर्जी समाचारों का पता लगाने के लिए ज्ञान संवर्धन और भावना मार्गदर्शन नेटवर्क

THOR: ऑन-डिमांड पुनर्प्राप्ति के लिए ट्रांसफॉर्मर ह्यूरिस्टिक्स

सीलगार्ड: एलएलएम सॉफ्टवेयर प्रणालियों के लिए दक्षिण पूर्व एशियाई भाषाओं में बहुभाषी वार्तालापों की सुरक्षा

KeyRe-ID: वीडियो में पार्ट-अवेयर रिप्रेजेंटेशन का उपयोग करके मुख्य बिंदु-निर्देशित व्यक्ति पुनः-पहचान

एलएलएम सर्वेक्षण प्रतिक्रियाओं में त्वरित विक्षोभ से मानव-सदृश पूर्वाग्रहों का पता चलता है

जेमिनी 2.5: उन्नत तर्क, बहुविधता, दीर्घ संदर्भ और अगली पीढ़ी की एजेंटिक क्षमताओं के साथ सीमा को आगे बढ़ाना

सटीक डायनेमिक्स मॉडल के माध्यम से सेंसर रहित बल नियंत्रण का उपयोग करके तेज़ द्विपक्षीय टेलीऑपरेशन और अनुकरण सीखना

कठिनाई-निर्देशित नमूनाकरण के साथ कार्य-विशिष्ट जनरेटिव डेटासेट आसवन

VIDEE: बुद्धिमान एजेंटों के साथ पाठ विश्लेषण का दृश्य और इंटरैक्टिव अपघटन, निष्पादन और मूल्यांकन

रीकोड: सुदृढीकरण सीखने के साथ कोड एपीआई ज्ञान को अद्यतन करना

भाषा मॉडल की व्याख्या के लिए क्रॉस-लेयर डिस्क्रीट अवधारणा खोज

उन्नत प्रतिकूल हस्तांतरणीयता के लिए अर्थ संरचना-जागरूक जनरेटिव हमले

MEM1: कुशल दीर्घकालिक एजेंटों के लिए स्मृति और तर्क का समन्वय करना सीखना

बहु-आवृत्ति जनसंख्या-आधारित प्रशिक्षण

आलोचना-जीआरपीओ: प्राकृतिक भाषा और संख्यात्मक प्रतिक्रिया के साथ एलएलएम तर्क को आगे बढ़ाना

SLM को बेहतर बनाएँ या LLM को प्रेरित करें? लो-कोड वर्कफ़्लो उत्पन्न करने का मामला

ContextQFormer: मल्टी-टर्न मल्टी-मोडल वार्तालापों के लिए एक नई संदर्भ मॉडलिंग विधि

GPU प्रदर्शन पोर्टेबिलिटी के लिए ऑटोट्यूनिंग की आवश्यकता होती है

ड्रीमबूथ और इंस्टेंटआईडी में बेहतर चेहरे की समानता के लिए संवर्द्धन के माध्यम से सिंथेटिक डेटा उत्पन्न करना

कोरल प्रोटोकॉल: एजेंटों के इंटरनेट को जोड़ने वाला खुला बुनियादी ढांचा

मैक-ट्यूनिंग: उन्नत ज्ञान सीमा जागरूकता के साथ एलएलएम बहु-रचनात्मक समस्या तर्क

फ़ेडरेटेड लर्निंग: गोपनीयता-संरक्षण सहयोगी बुद्धिमत्ता पर एक सर्वेक्षण

संदर्भ-संरक्षण टोकन फ़िल्टरिंग और ज्ञान ग्राफ़ के साथ LLM में नैदानिक पाठ सारांशीकरण में सुधार

टास्क-सर्किट क्वांटाइजेशन: संपीड़न के लिए ज्ञान स्थानीयकरण और व्याख्या का लाभ उठाना

जेलडैम: दृष्टि-भाषा मॉडल के लिए अनुकूली मेमोरी के साथ जेलब्रेक डिटेक्शन

केपी क्वांटम न्यूरल नेटवर्क

वेक्टरफिट: पूर्व-प्रशिक्षित फाउंडेशन मॉडल का अनुकूली एकवचन और पूर्वाग्रह वेक्टर फ़ाइन-ट्यूनिंग

अस्थिर प्रवाह के लिए डेटा-कुशल डीप ऑपरेटर नेटवर्क: भौतिकी-निर्देशित सबसैंपलिंग के साथ एक बहु-विश्वसनीयता दृष्टिकोण

क्रॉस-डोमेन डेटा फ़्यूज़न के लिए एक आधार मॉडल के साथ सार्वभौमिक मानव गतिशीलता पैटर्न सीखना

जियोफ्लो-एसएलएएम: गतिशील लेग्ड रोबोटिक्स के लिए एक मजबूत, टाइटली-कप्लड आरजीबीडी-इनर्शियल और लेग्ड ओडोमेट्री फ्यूजन एसएलएएम

बड़े भाषा मॉडल का उपयोग करके व्यवसाय वर्गीकरण के लिए वर्गीकरण-निर्देशित तर्क के साथ एक बहु-चरणीय ढांचा

सटीक ग्राफ़ प्रतिनिधित्व के लिए मल्टी-व्यू नोड प्रूनिंग

वी-मैक्स: स्वायत्त ड्राइविंग के लिए एक सुदृढ़ीकरण शिक्षण ढांचा

आश्चर्यशीलता के माध्यम से सीखने के माध्यम से समयरेखाओं का व्याख्यात्मक परिवर्तन और विश्लेषण

एआई गवर्नेंस अंतर्राष्ट्रीय मूल्यांकन सूचकांक (एजीआईएलई सूचकांक) 2024

UPCORE: संतुलित अनलर्निंग के लिए उपयोगिता-संरक्षण कोरसेट चयन

डेटा-कुशल RL के लिए ट्रांसफॉर्मर वर्ल्ड मॉडल में सुधार

एलएलएम-रिक्ग: शून्य-शॉट अनुक्रमिक अनुशंसा के लिए एक अर्थगत पूर्वाग्रह-जागरूक ढांचा

SIDDA: समतुल्य तंत्रिका नेटवर्क के साथ छवि वर्गीकरण के लिए सिंकहॉर्न डायनेमिक डोमेन अनुकूलन

सशर्त जनरेटिव एडवर्सेरियल नेटवर्क (CGANs) का उपयोग करके आकाशगंगा फोटोमेट्रिक रेडशिफ्ट का निर्धारण

स्पीच-फोरेंसिक्स: व्यापक सिंथेटिक स्पीच डेटासेट स्थापना और विश्लेषण की ओर

एमआरजेन: कम प्रतिनिधित्व वाले एमआरआई तौर-तरीकों के लिए विभाजन डेटा इंजन

आईओपीओ: इनपुट-आउटपुट वरीयता अनुकूलन के माध्यम से जटिल निर्देश के साथ एलएलएम को सशक्त बनाना

विज़ुओमोटर अनुकरण अधिगम के लिए ऑब्जेक्ट-केंद्रित कीपॉइंट व्युत्क्रम नीति के साथ आउट-ऑफ-डिस्ट्रीब्यूशन पुनर्प्राप्ति

व्याख्या योग्य एआई एल्गोरिदम की बोधगम्यता पर उपयोगकर्ता अध्ययन से प्राप्त डेटासेट

बड़े दृष्टि-भाषा मॉडल के लिए एकीकृत त्रिक-स्तरीय मतिभ्रम मूल्यांकन

LoRA संपन्न RITE: LoRA अनुकूलन के लिए मजबूत अपरिवर्तनीय परिवर्तन संतुलन

बिंदुवार V-उपयोग योग्य जानकारी का उपयोग करके बहु-कार्य सीखने के लिए कार्य समूहों की पहचान करना

परिभाषित करें: कारक प्रोफाइल पर अनुरूप तर्क के साथ निर्णय लेना

मुख्य मंच नृत्य संगीत के लिए उप-शैली वर्गीकरण की बेंचमार्किंग

एआई-संवर्धित सुरक्षा पाइपलाइनों में अनिश्चितता प्रसार को नज़रअंदाज़ करने के जोखिम

मेडपिक्स 2.0: उन्नत एआई अनुप्रयोगों के लिए एक व्यापक मल्टीमॉडल बायोमेडिकल डेटा सेट, जिसमें पुनर्प्राप्ति संवर्धित पीढ़ी और ज्ञान ग्राफ़ शामिल हैं

स्थानिक-कालिक तंत्रिका नेटवर्क सिग्नलिंग मॉडल के गतिशील व्यवहार का अनुमान लगाने के लिए क्वांटम सुपरपोजिशन का लाभ उठाना

सबसे खराब श्रेणी की त्रुटि को सीमित करना: एक बढ़ावा देने वाला दृष्टिकोण

टीबीडिटेक्टर: प्रोवेंस ग्राफ के साथ उन्नत स्थायी खतरों के लिए ट्रांसफार्मर-आधारित डिटेक्टर

मशीन लर्निंग सिस्टम: डेटा-उन्मुख दृष्टिकोण से एक सर्वेक्षण

ऐम: पूर्ण-स्वायत्त मल्टी-एजेंट फ्रेमवर्क की ओर

स्मार्टथिंकर: चरण-स्तरीय लंबाई नियंत्रण द्वारा तर्क को संपीड़ित और संरक्षित करना सीखना

रेडी ज्यूरिस्ट वन: गतिशील वातावरण में कानूनी खुफिया जानकारी के लिए भाषा एजेंटों की बेंचमार्किंग

एनटीआरएल: डंजन्स एंड ड्रैगन्स में गतिशील कठिनाई समायोजन के लिए सुदृढीकरण सीखने के माध्यम से मुठभेड़ निर्माण

बहु-दिमाग़ से निर्णय लेना: क्या ज़्यादा नज़रिए का मतलब कम पूर्वाग्रह है? बहु-एजेंट आधारित एलएलएम-एज़-जज में पूर्वाग्रह प्रवर्धन और प्रतिरोध पर

एक्शनस्टूडियो: बड़े एक्शन मॉडल के डेटा और प्रशिक्षण के लिए एक हल्का फ्रेमवर्क

BEARCUBS: कंप्यूटर का उपयोग करने वाले वेब एजेंटों के लिए एक बेंचमार्क

म्यूज़ीरो योजना का रहस्य उजागर करना: सीखे गए मॉडल की व्याख्या करना

एलएलएम - उन्नत उपयोगकर्ता-आइटम इंटरैक्शन: अनुकूलित अनुशंसाओं के लिए एज सूचना का लाभ उठाना

वीडियोआईटीजी: निर्देशित टेम्पोरल ग्राउंडिंग के साथ मल्टीमॉडल वीडियो समझ

विज़नथिंक: सुदृढीकरण सीखने के माध्यम से स्मार्ट और कुशल विज़न भाषा मॉडल

संतुलन में असंतुलन: पीढ़ी मॉडल में ऑनलाइन अवधारणा संतुलन

अवतार-अज्ञेय पूर्व-प्रशिक्षित विश्व मॉडल के साथ अव्यक्त नीति संचालन

दृष्टि और भाषा प्रशिक्षण वर्गीकरण ज्ञान को विकसित करने में मदद करता है, लेकिन इसे मौलिक रूप से परिवर्तित नहीं करता है

तर्क-आधारित पोज़ अनुमान बेंचमार्क में विश्वसनीयता पर पुनर्विचार

एबजेन: वैज्ञानिक अनुसंधान के लिए एब्लेशन अध्ययन डिजाइन और मूल्यांकन में बड़े भाषा मॉडल का मूल्यांकन

प्राकृतिक भाषा संकेतों से एलएलएम-जनित कोड के औपचारिक सत्यापन की ओर

कृत्रिम रोबोटिक चतुर्भुजों में नेविगेशन के लिए सुदृढीकरण सीखने के एल्गोरिदम का मूल्यांकन: गाइड डॉग व्यवहार से प्रेरित एक तुलनात्मक अध्ययन

टैलेंटसीएलईएफ 2025 का अवलोकन: मानव पूंजी प्रबंधन के लिए कौशल और नौकरी पदवी की जानकारी

क्वेस्टए: प्रश्न संवर्धन के माध्यम से एलएलएम में तर्क क्षमता का विस्तार

वोक्सट्रल

क्रमचय स्थान पर बायेसियन अनुकूलन के लिए मर्ज कर्नेल

लगभग ऑर्थोगोनल फाइन-ट्यूनिंग रणनीति द्वारा समर्थित पूर्व-प्रशिक्षित विज़न ट्रांसफॉर्मर का कुशल अनुकूलन

सुरक्षित मल्टीमॉडल बड़े भाषा मॉडल के लिए स्टीयरिंग को स्वचालित करना

HATS: बड़े भाषा मॉडल में तर्कशक्ति के मूल्यांकन हेतु हिंदी सादृश्य परीक्षण सेट

वीटा: विजन-टू-एक्शन फ्लो मैचिंग पॉलिसी

$S^2M^2$: विश्वसनीय गहराई अनुमान के लिए स्केलेबल स्टीरियो मिलान मॉडल

वास्तविकता का संश्लेषण: निर्माण श्रमिकों का पता लगाने के लिए जनरेटिव एआई-संचालित प्लेटफॉर्म मिडजर्नी का लाभ उठाना

अंतर्निहित मानवीय प्रतिक्रिया से सुदृढीकरण सीखने के माध्यम से मनुष्यों और रोबोटों को संरेखित करना

SHIELD: प्रतिकूल हमलों के विरुद्ध मज़बूत डीपफ़ेक पहचान के लिए एक सुरक्षित और अत्यधिक उन्नत एकीकृत शिक्षण

प्रॉम्प्ट इंजेक्शन 2.0: हाइब्रिड AI खतरे

ऑर्बिस: ड्राइविंग वर्ल्ड मॉडल में दीर्घ-क्षितिज भविष्यवाणी की चुनौतियों पर काबू पाना

व्युत्क्रम सुदृढीकरण सीखना प्रशिक्षण के बाद बड़े भाषा मॉडल से मिलता है: मूल बातें, प्रगति और अवसर

रीकोड: सुदृढीकरण सीखने के साथ कोड एपीआई ज्ञान को अद्यतन करना

Created by

Haebom

लेखक

हाओज़े वू, युन्झी याओ, वेन्हाओ यू, हुआजुन चेन, निंग्यु झांग

रूपरेखा

यह शोधपत्र इस समस्या का समाधान करता है कि बड़े पैमाने के भाषा मॉडल (LLM) की कोड निर्माण क्षमता को बाहरी लाइब्रेरी API के बार-बार अपडेट के अनुकूल होने में कठिनाई होती है। ऐसा इसलिए है क्योंकि LLM अपने प्रशिक्षण डेटा में पुरानी API जानकारी पर निर्भर करते हैं। इस समस्या के समाधान के लिए, हम ReCode (कोड अपडेट के लिए नियम-आधारित सुदृढीकरण अधिगम) प्रस्तावित करते हैं, जो एक नया ढाँचा है जो मानव प्रोग्रामरों द्वारा API परिवर्तनों के अनुकूल होने के तरीके की नकल करता है। ReCode, लगभग 2,000 डेटा आइटमों के डेटासेट का उपयोग करके अद्यतन जानकारी के आधार पर संस्करण माइग्रेशन करने के लिए LLM को प्रशिक्षित करता है। हम सुदृढीकरण अधिगम के लिए एक पुरस्कार के रूप में एक संशोधित स्ट्रिंग समानता मीट्रिक भी प्रस्तुत करते हैं। प्रायोगिक परिणाम दर्शाते हैं कि ReCode गतिशील API परिदृश्यों में, विशेष रूप से अनदेखे CodeUpdateArena कार्य में, LLM के कोड निर्माण प्रदर्शन में उल्लेखनीय सुधार करता है। विशेष रूप से, पर्यवेक्षित अधिगम फ़ाइन-ट्यूनिंग की तुलना में, ReCode का LLM की सामान्य कोड निर्माण क्षमता पर कम प्रभाव पड़ता है। हम विभिन्न LLM और सुदृढीकरण अधिगम एल्गोरिदम (GRPO और DAPO) पर ReCode लागू करते हैं और लगातार प्रदर्शन सुधार प्राप्त करते हैं। विशेष रूप से, प्रशिक्षण के बाद, Qwen2.5-Coder-7B ने समान आर्किटेक्चर वाले 32B पैरामीटर कोड डायरेक्टिव फ़ाइन-ट्यूनिंग मॉडल और इंफ़रेंस मॉडल से बेहतर प्रदर्शन किया। कोड https://github.com/zjunlp/ReCode में पाया जा सकता है ।

GitHub - zjunlp/ReCode: ReCode: Reinforced Code Knowledge Editing for API Updates

ReCode: Reinforced Code Knowledge Editing for API Updates - zjunlp/ReCode

github.com

__T37050_, T37051___

•

Takeaways:

◦

एलएलएम के गतिशील एपीआई वातावरण में कोड निर्माण प्रदर्शन को बेहतर बनाने के लिए एक प्रभावी विधि प्रस्तुत करना

◦

सुदृढीकरण अधिगम-आधारित रीकोड फ्रेमवर्क का पर्यवेक्षित अधिगम की तुलना में LLM की सामान्य कोड निर्माण क्षमता पर कम नकारात्मक प्रभाव पड़ता है

◦

विभिन्न एलएलएम और सुदृढीकरण सीखने के एल्गोरिदम के लिए प्रयोज्यता और उत्कृष्ट प्रदर्शन का सत्यापन (Qwen2.5-Coder-7B का उत्कृष्ट प्रदर्शन)

◦

वास्तविक दुनिया के API अपडेट के लिए बेहतर अनुकूलनशीलता

•

Limitations:

◦

डेटासेट का आकार बढ़ाने की आवश्यकता है क्योंकि वर्तमान में इसे 2,000 डेटा आइटमों के साथ प्रशिक्षित किया गया है।

◦

विभिन्न API और प्रोग्रामिंग भाषाओं में सामान्यीकरण प्रदर्शन पर और अधिक शोध की आवश्यकता है।

◦

वास्तविक वातावरण में रीकोड की दीर्घकालिक स्थिरता और रखरखाव की समीक्षा करने की आवश्यकता है

◦

प्रयुक्त स्ट्रिंग समानता मीट्रिक की सीमाएँ और सुधार की संभावनाएँ

पीडीएफ देखें

Made with Slashpage

दैनिक अर्क्सिव

रीकोड: सुदृढीकरण सीखने के साथ कोड एपीआई ज्ञान को अद्यतन करना

लेखक

रूपरेखा

____T37050_____, ____T37051_____

__T37050_, T37051___