[공지사항]을 빙자한 안부와 근황

दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

EgoVLA: अहंकारी मानव वीडियो से दृष्टि-भाषा-क्रिया मॉडल सीखना

उच्च निष्ठा, उत्पादक प्रसार मॉडल के लिए संरचनागत असतत अव्यक्त कोड

MERA कोड: विभिन्न कार्यों में कोड निर्माण के मूल्यांकन के लिए एक एकीकृत ढाँचा

प्रगतिशील परत जमने के साथ साइट-स्तर पर बारीक ट्यूनिंग: अत्यंत समयपूर्व जन्मे शिशुओं में पहले दिन के छाती के रेडियोग्राफ से ब्रोंकोपल्मोनरी डिस्प्लेसिया की मजबूत भविष्यवाणी की ओर

जलवायु-प्रासंगिक रोबोटिक्स अनुसंधान के लिए एक रोडमैप

निष्पक्षता पर्याप्त नहीं: एआई-संचालित रिज्यूमे स्क्रीनिंग में ऑडिटिंग क्षमता और अंतर्विभागीय पूर्वाग्रह

MMOne: एक दृश्य में कई तौर-तरीकों का प्रतिनिधित्व

SWE-MERA: सॉफ्टवेयर इंजीनियरिंग कार्यों पर बड़े भाषा मॉडल का एजेंटिक मूल्यांकन करने के लिए एक गतिशील बेंचमार्क

कोडअसिस्टबेंच (CAB): मल्टी-टर्न चैट-आधारित कोड सहायता के लिए डेटासेट और बेंचमार्किंग

फाउंडेशन मॉडल की (लगभग) निःशुल्क मोडैलिटी सिलाई

क्रॉस-मोडल सिमेंटिक गाइडेंस और मल्टी-लेवल फ़ीचर फ़्यूज़न के साथ CLIP और 3D U-Net पर आधारित एक ब्रेन ट्यूमर सेगमेंटेशन विधि

केएन: मल्टीमॉडल फर्जी समाचारों का पता लगाने के लिए ज्ञान संवर्धन और भावना मार्गदर्शन नेटवर्क

THOR: ऑन-डिमांड पुनर्प्राप्ति के लिए ट्रांसफॉर्मर ह्यूरिस्टिक्स

सीलगार्ड: एलएलएम सॉफ्टवेयर प्रणालियों के लिए दक्षिण पूर्व एशियाई भाषाओं में बहुभाषी वार्तालापों की सुरक्षा

KeyRe-ID: वीडियो में पार्ट-अवेयर रिप्रेजेंटेशन का उपयोग करके मुख्य बिंदु-निर्देशित व्यक्ति पुनः-पहचान

एलएलएम सर्वेक्षण प्रतिक्रियाओं में त्वरित विक्षोभ से मानव-सदृश पूर्वाग्रहों का पता चलता है

जेमिनी 2.5: उन्नत तर्क, बहुविधता, दीर्घ संदर्भ और अगली पीढ़ी की एजेंटिक क्षमताओं के साथ सीमा को आगे बढ़ाना

सटीक डायनेमिक्स मॉडल के माध्यम से सेंसर रहित बल नियंत्रण का उपयोग करके तेज़ द्विपक्षीय टेलीऑपरेशन और अनुकरण सीखना

कठिनाई-निर्देशित नमूनाकरण के साथ कार्य-विशिष्ट जनरेटिव डेटासेट आसवन

VIDEE: बुद्धिमान एजेंटों के साथ पाठ विश्लेषण का दृश्य और इंटरैक्टिव अपघटन, निष्पादन और मूल्यांकन

रीकोड: सुदृढीकरण सीखने के साथ कोड एपीआई ज्ञान को अद्यतन करना

भाषा मॉडल की व्याख्या के लिए क्रॉस-लेयर डिस्क्रीट अवधारणा खोज

उन्नत प्रतिकूल हस्तांतरणीयता के लिए अर्थ संरचना-जागरूक जनरेटिव हमले

MEM1: कुशल दीर्घकालिक एजेंटों के लिए स्मृति और तर्क का समन्वय करना सीखना

बहु-आवृत्ति जनसंख्या-आधारित प्रशिक्षण

आलोचना-जीआरपीओ: प्राकृतिक भाषा और संख्यात्मक प्रतिक्रिया के साथ एलएलएम तर्क को आगे बढ़ाना

SLM को बेहतर बनाएँ या LLM को प्रेरित करें? लो-कोड वर्कफ़्लो उत्पन्न करने का मामला

ContextQFormer: मल्टी-टर्न मल्टी-मोडल वार्तालापों के लिए एक नई संदर्भ मॉडलिंग विधि

GPU प्रदर्शन पोर्टेबिलिटी के लिए ऑटोट्यूनिंग की आवश्यकता होती है

ड्रीमबूथ और इंस्टेंटआईडी में बेहतर चेहरे की समानता के लिए संवर्द्धन के माध्यम से सिंथेटिक डेटा उत्पन्न करना

कोरल प्रोटोकॉल: एजेंटों के इंटरनेट को जोड़ने वाला खुला बुनियादी ढांचा

मैक-ट्यूनिंग: उन्नत ज्ञान सीमा जागरूकता के साथ एलएलएम बहु-रचनात्मक समस्या तर्क

फ़ेडरेटेड लर्निंग: गोपनीयता-संरक्षण सहयोगी बुद्धिमत्ता पर एक सर्वेक्षण

संदर्भ-संरक्षण टोकन फ़िल्टरिंग और ज्ञान ग्राफ़ के साथ LLM में नैदानिक पाठ सारांशीकरण में सुधार

टास्क-सर्किट क्वांटाइजेशन: संपीड़न के लिए ज्ञान स्थानीयकरण और व्याख्या का लाभ उठाना

जेलडैम: दृष्टि-भाषा मॉडल के लिए अनुकूली मेमोरी के साथ जेलब्रेक डिटेक्शन

केपी क्वांटम न्यूरल नेटवर्क

वेक्टरफिट: पूर्व-प्रशिक्षित फाउंडेशन मॉडल का अनुकूली एकवचन और पूर्वाग्रह वेक्टर फ़ाइन-ट्यूनिंग

अस्थिर प्रवाह के लिए डेटा-कुशल डीप ऑपरेटर नेटवर्क: भौतिकी-निर्देशित सबसैंपलिंग के साथ एक बहु-विश्वसनीयता दृष्टिकोण

क्रॉस-डोमेन डेटा फ़्यूज़न के लिए एक आधार मॉडल के साथ सार्वभौमिक मानव गतिशीलता पैटर्न सीखना

जियोफ्लो-एसएलएएम: गतिशील लेग्ड रोबोटिक्स के लिए एक मजबूत, टाइटली-कप्लड आरजीबीडी-इनर्शियल और लेग्ड ओडोमेट्री फ्यूजन एसएलएएम

बड़े भाषा मॉडल का उपयोग करके व्यवसाय वर्गीकरण के लिए वर्गीकरण-निर्देशित तर्क के साथ एक बहु-चरणीय ढांचा

सटीक ग्राफ़ प्रतिनिधित्व के लिए मल्टी-व्यू नोड प्रूनिंग

वी-मैक्स: स्वायत्त ड्राइविंग के लिए एक सुदृढ़ीकरण शिक्षण ढांचा

आश्चर्यशीलता के माध्यम से सीखने के माध्यम से समयरेखाओं का व्याख्यात्मक परिवर्तन और विश्लेषण

एआई गवर्नेंस अंतर्राष्ट्रीय मूल्यांकन सूचकांक (एजीआईएलई सूचकांक) 2024

UPCORE: संतुलित अनलर्निंग के लिए उपयोगिता-संरक्षण कोरसेट चयन

डेटा-कुशल RL के लिए ट्रांसफॉर्मर वर्ल्ड मॉडल में सुधार

एलएलएम-रिक्ग: शून्य-शॉट अनुक्रमिक अनुशंसा के लिए एक अर्थगत पूर्वाग्रह-जागरूक ढांचा

SIDDA: समतुल्य तंत्रिका नेटवर्क के साथ छवि वर्गीकरण के लिए सिंकहॉर्न डायनेमिक डोमेन अनुकूलन

सशर्त जनरेटिव एडवर्सेरियल नेटवर्क (CGANs) का उपयोग करके आकाशगंगा फोटोमेट्रिक रेडशिफ्ट का निर्धारण

स्पीच-फोरेंसिक्स: व्यापक सिंथेटिक स्पीच डेटासेट स्थापना और विश्लेषण की ओर

एमआरजेन: कम प्रतिनिधित्व वाले एमआरआई तौर-तरीकों के लिए विभाजन डेटा इंजन

आईओपीओ: इनपुट-आउटपुट वरीयता अनुकूलन के माध्यम से जटिल निर्देश के साथ एलएलएम को सशक्त बनाना

विज़ुओमोटर अनुकरण अधिगम के लिए ऑब्जेक्ट-केंद्रित कीपॉइंट व्युत्क्रम नीति के साथ आउट-ऑफ-डिस्ट्रीब्यूशन पुनर्प्राप्ति

व्याख्या योग्य एआई एल्गोरिदम की बोधगम्यता पर उपयोगकर्ता अध्ययन से प्राप्त डेटासेट

बड़े दृष्टि-भाषा मॉडल के लिए एकीकृत त्रिक-स्तरीय मतिभ्रम मूल्यांकन

LoRA संपन्न RITE: LoRA अनुकूलन के लिए मजबूत अपरिवर्तनीय परिवर्तन संतुलन

बिंदुवार V-उपयोग योग्य जानकारी का उपयोग करके बहु-कार्य सीखने के लिए कार्य समूहों की पहचान करना

परिभाषित करें: कारक प्रोफाइल पर अनुरूप तर्क के साथ निर्णय लेना

मुख्य मंच नृत्य संगीत के लिए उप-शैली वर्गीकरण की बेंचमार्किंग

एआई-संवर्धित सुरक्षा पाइपलाइनों में अनिश्चितता प्रसार को नज़रअंदाज़ करने के जोखिम

मेडपिक्स 2.0: उन्नत एआई अनुप्रयोगों के लिए एक व्यापक मल्टीमॉडल बायोमेडिकल डेटा सेट, जिसमें पुनर्प्राप्ति संवर्धित पीढ़ी और ज्ञान ग्राफ़ शामिल हैं

स्थानिक-कालिक तंत्रिका नेटवर्क सिग्नलिंग मॉडल के गतिशील व्यवहार का अनुमान लगाने के लिए क्वांटम सुपरपोजिशन का लाभ उठाना

सबसे खराब श्रेणी की त्रुटि को सीमित करना: एक बढ़ावा देने वाला दृष्टिकोण

टीबीडिटेक्टर: प्रोवेंस ग्राफ के साथ उन्नत स्थायी खतरों के लिए ट्रांसफार्मर-आधारित डिटेक्टर

मशीन लर्निंग सिस्टम: डेटा-उन्मुख दृष्टिकोण से एक सर्वेक्षण

ऐम: पूर्ण-स्वायत्त मल्टी-एजेंट फ्रेमवर्क की ओर

स्मार्टथिंकर: चरण-स्तरीय लंबाई नियंत्रण द्वारा तर्क को संपीड़ित और संरक्षित करना सीखना

रेडी ज्यूरिस्ट वन: गतिशील वातावरण में कानूनी खुफिया जानकारी के लिए भाषा एजेंटों की बेंचमार्किंग

एनटीआरएल: डंजन्स एंड ड्रैगन्स में गतिशील कठिनाई समायोजन के लिए सुदृढीकरण सीखने के माध्यम से मुठभेड़ निर्माण

बहु-दिमाग़ से निर्णय लेना: क्या ज़्यादा नज़रिए का मतलब कम पूर्वाग्रह है? बहु-एजेंट आधारित एलएलएम-एज़-जज में पूर्वाग्रह प्रवर्धन और प्रतिरोध पर

एक्शनस्टूडियो: बड़े एक्शन मॉडल के डेटा और प्रशिक्षण के लिए एक हल्का फ्रेमवर्क

BEARCUBS: कंप्यूटर का उपयोग करने वाले वेब एजेंटों के लिए एक बेंचमार्क

म्यूज़ीरो योजना का रहस्य उजागर करना: सीखे गए मॉडल की व्याख्या करना

एलएलएम - उन्नत उपयोगकर्ता-आइटम इंटरैक्शन: अनुकूलित अनुशंसाओं के लिए एज सूचना का लाभ उठाना

वीडियोआईटीजी: निर्देशित टेम्पोरल ग्राउंडिंग के साथ मल्टीमॉडल वीडियो समझ

विज़नथिंक: सुदृढीकरण सीखने के माध्यम से स्मार्ट और कुशल विज़न भाषा मॉडल

संतुलन में असंतुलन: पीढ़ी मॉडल में ऑनलाइन अवधारणा संतुलन

अवतार-अज्ञेय पूर्व-प्रशिक्षित विश्व मॉडल के साथ अव्यक्त नीति संचालन

दृष्टि और भाषा प्रशिक्षण वर्गीकरण ज्ञान को विकसित करने में मदद करता है, लेकिन इसे मौलिक रूप से परिवर्तित नहीं करता है

तर्क-आधारित पोज़ अनुमान बेंचमार्क में विश्वसनीयता पर पुनर्विचार

एबजेन: वैज्ञानिक अनुसंधान के लिए एब्लेशन अध्ययन डिजाइन और मूल्यांकन में बड़े भाषा मॉडल का मूल्यांकन

प्राकृतिक भाषा संकेतों से एलएलएम-जनित कोड के औपचारिक सत्यापन की ओर

कृत्रिम रोबोटिक चतुर्भुजों में नेविगेशन के लिए सुदृढीकरण सीखने के एल्गोरिदम का मूल्यांकन: गाइड डॉग व्यवहार से प्रेरित एक तुलनात्मक अध्ययन

टैलेंटसीएलईएफ 2025 का अवलोकन: मानव पूंजी प्रबंधन के लिए कौशल और नौकरी पदवी की जानकारी

क्वेस्टए: प्रश्न संवर्धन के माध्यम से एलएलएम में तर्क क्षमता का विस्तार

वोक्सट्रल

क्रमचय स्थान पर बायेसियन अनुकूलन के लिए मर्ज कर्नेल

लगभग ऑर्थोगोनल फाइन-ट्यूनिंग रणनीति द्वारा समर्थित पूर्व-प्रशिक्षित विज़न ट्रांसफॉर्मर का कुशल अनुकूलन

सुरक्षित मल्टीमॉडल बड़े भाषा मॉडल के लिए स्टीयरिंग को स्वचालित करना

HATS: बड़े भाषा मॉडल में तर्कशक्ति के मूल्यांकन हेतु हिंदी सादृश्य परीक्षण सेट

वीटा: विजन-टू-एक्शन फ्लो मैचिंग पॉलिसी

$S^2M^2$: विश्वसनीय गहराई अनुमान के लिए स्केलेबल स्टीरियो मिलान मॉडल

वास्तविकता का संश्लेषण: निर्माण श्रमिकों का पता लगाने के लिए जनरेटिव एआई-संचालित प्लेटफॉर्म मिडजर्नी का लाभ उठाना

अंतर्निहित मानवीय प्रतिक्रिया से सुदृढीकरण सीखने के माध्यम से मनुष्यों और रोबोटों को संरेखित करना

SHIELD: प्रतिकूल हमलों के विरुद्ध मज़बूत डीपफ़ेक पहचान के लिए एक सुरक्षित और अत्यधिक उन्नत एकीकृत शिक्षण

प्रॉम्प्ट इंजेक्शन 2.0: हाइब्रिड AI खतरे

ऑर्बिस: ड्राइविंग वर्ल्ड मॉडल में दीर्घ-क्षितिज भविष्यवाणी की चुनौतियों पर काबू पाना

व्युत्क्रम सुदृढीकरण सीखना प्रशिक्षण के बाद बड़े भाषा मॉडल से मिलता है: मूल बातें, प्रगति और अवसर

जीएचपीओ: स्थिर और कुशल एलएलएम सुदृढीकरण सीखने के लिए अनुकूली मार्गदर्शन

Created by

Haebom

लेखक

ज़िरू लियू, चेंग गोंग, ज़िन्यू फू, याओफ़ांग लियू, रैन चेन, शौबो हू, सुइयुन झांग, रुई लियू, किंगफू झांग, डंडन तू

रूपरेखा

इस शोधपत्र में, हम सत्यापन योग्य पुरस्कारों के साथ सुदृढीकरण सीखने (RLVR) की समस्या को हल करने के लिए एक नवीन कठिनाई-जागरूक सुदृढीकरण सीखने का ढाँचा, निर्देशित हाइब्रिड नीति अनुकूलन (GHPO) प्रस्तुत करते हैं। यह बड़े पैमाने के भाषा मॉडलों (LLM) की जटिल अनुमान क्षमता में सुधार हेतु एक सुदृढीकरण सीखने की विधि है। GHPO अनुकूली शीघ्र सुधार के माध्यम से कार्य की कठिनाई को गतिशील रूप से समायोजित करके, मॉडल की वर्तमान क्षमता से परे समस्याओं के लिए प्रत्यक्ष अनुकरण सीखने को लागू करके, और प्रबंधनीय समस्याओं के लिए अन्वेषण-आधारित सुदृढीकरण सीखने को लागू करके एक कुशल सीखने की प्रक्रिया बनाता है। हम प्रयोगात्मक रूप से प्रदर्शित करते हैं कि हमारा दृष्टिकोण छह गणितीय मानदंडों पर मौजूदा सुदृढीकरण सीखने और पाठ्यक्रम सीखने की तकनीकों की तुलना में सीखने की स्थिरता और अंतिम अनुमान प्रदर्शन, दोनों में औसतन 5% सुधार करता है।

Takeaways, Limitations

•

Takeaways:

◦

हम दिखाते हैं कि अनुकूली शीघ्र सुधार के माध्यम से गतिशील कठिनाई समायोजन एलएलएम की तर्क क्षमता में सुधार करने में प्रभावी है।

◦

हम यह प्रदर्शित करते हैं कि सीखने की स्थिरता और प्रदर्शन के संदर्भ में जीएचपीओ मौजूदा सुदृढीकरण सीखने और पाठ्यक्रम सीखने के तरीकों से बेहतर है।

◦

छोटे एलएलएम में कुशल शिक्षण के लिए एक नया दृष्टिकोण प्रस्तुत करना।

◦

गणितीय समस्या-समाधान कौशल में सुधार करने में पर्याप्त प्रदर्शन सुधार प्रदर्शित करता है।

•

Limitations:

◦

प्रस्तुत बेंचमार्क गणितीय समस्याओं तक सीमित है, तथा अन्य क्षेत्रों में इसकी सामान्यता निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है।

◦

जीएचपीओ की अनुकूली त्वरित सुधार रणनीति की सामान्य प्रयोज्यता और सीमाओं पर आगे विश्लेषण की आवश्यकता है।

◦

विभिन्न आकारों के एलएलएम के लिए प्रयोगात्मक परिणामों का अभाव है।

◦

जीएचपीओ की कम्प्यूटेशनल लागत और दक्षता का आगे विश्लेषण आवश्यक है।

पीडीएफ देखें

Made with Slashpage