दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

आत्म-प्रश्न भाषा मॉडल

जोखिम से परे: एआई प्रणालियों के सामाजिक प्रभाव का आकलन करने के लिए एक प्रोटो-फ्रेमवर्क

डीप न्यूरल नेटवर्क के साथ पर्यवेक्षित गतिशील आयाम न्यूनीकरण

इमोस्टीयर-टीटीएस: सक्रियण स्टीयरिंग के माध्यम से सूक्ष्म और प्रशिक्षण-मुक्त भावना-नियंत्रण योग्य टेक्स्ट-टू-स्पीच

एलएलएम का दिल पत्थर का होता है: बड़े तर्क मॉडल की कोमल सोच क्षमता का रहस्य उजागर करना

विनियमन के अंतर्गत औद्योगिक एलएलएम-आधारित कोड अनुकूलन: एजेंटों का मिश्रण दृष्टिकोण

कम-सटीक पुनर्प्राप्ति के लिए विश्वसनीय मूल्यांकन प्रोटोकॉल

लैंडसैट30-एयू: ऑस्ट्रेलियाई लैंडसैट इमेजरी के लिए एक विज़न-लैंग्वेज डेटासेट

रेपो डीप सर्च के लिए टूल-एकीकृत सुदृढीकरण सीखना

काउकर: वर्गीकरण समय श्रृंखला आधार मॉडल को केवल सिंथेटिक डेटा पर ही पूर्व-प्रशिक्षित किया जा सकता है

दृष्टि-भाषा संरेखण के लिए बड़े भाषा मॉडल के साथ संदर्भ-अनुकूली बहु-प्रॉम्प्ट एम्बेडिंग

डीएमएससी: समय श्रृंखला पूर्वानुमान के लिए गतिशील बहु-स्तरीय समन्वय ढांचा

HyCodePolicy: एम्बेडेड एजेंटों में मल्टीमॉडल मॉनिटरिंग और निर्णय के लिए हाइब्रिड भाषा नियंत्रक

Pinterest विज्ञापनों के लिए ऑनसाइट-ऑफसाइट ग्राफ़ के माध्यम से इकाई प्रतिनिधित्व सीखना

संवादात्मक अनुशंसा प्रणालियों में उपयोगकर्ता अनुभव का मूल्यांकन: शास्त्रीय और एलएलएम-संचालित दृष्टिकोणों में एक व्यवस्थित समीक्षा

RAW छवियों में वस्तु पहचान के लिए स्थानिक-आवृत्ति जागरूकता

अनुकूलन-आधारित प्रदर्शनों का उपयोग करके बल और दृष्टि प्रतिक्रिया के साथ पिवोटिंग हेरफेर सीखना

एनसीसीआर: तंत्रिका नेटवर्क और प्रतिकूल उदाहरणों की मजबूती का मूल्यांकन करना

ChartM$^3$: मल्टीमॉडल निर्देशों के साथ बेंचमार्किंग चार्ट संपादन

उलझाव से संरेखण तक: अप्रशिक्षित समय श्रृंखला डोमेन अनुकूलन के लिए प्रतिनिधित्व स्थान अपघटन

इकोट्रांसफॉर्मर: बिना गुणन के ध्यान

बॉब की कंफ़ेटी: संगीत और वीडियो निर्माण में ध्वन्यात्मक स्मरण के हमले

एसडीबेंच: स्पीकर डायराइजेशन के लिए एक व्यापक बेंचमार्क सूट

वास्तविक बहुविध संदर्भ-आधारित शिक्षण में दृश्य संदर्भ पर ध्यान देने की आवश्यकता होती है

गेज प्रवाह मॉडल

भारित प्रतिक्रिया सहसंबंध के साथ शून्य-शॉट तंत्रिका वास्तुकला खोज

एलएलएम का अंधकारमय पक्ष: कंप्यूटर पर पूर्ण कब्ज़ा करने के लिए एजेंट-आधारित हमले

कैवगन: एलएलएम के आंतरिक प्रतिनिधित्व पर जनरेटिव प्रतिकूल हमलों के माध्यम से जेलब्रेक और रक्षा को एकीकृत करना

वोट: ट्रैजेक्टरी एनसेंबल वोटिंग के साथ विज़न-भाषा-क्रिया अनुकूलन

घने रिट्रीवर्स के रूप में विशिष्ट एलएलएम का तुलनात्मक अध्ययन

बड़े भाषा मॉडल का उपयोग करके संकेत पहचान अस्पष्टता

अनमिक्स-NeRF: स्पेक्ट्रल अनमिक्सिंग का न्यूरल रेडियंस फ़ील्ड्स से मिलन

विचार एंकर: एलएलएम तर्क के कौन से चरण महत्वपूर्ण हैं?

यूआईट्रॉन-स्पीच: वाक् निर्देशों पर आधारित स्वचालित GUI एजेंटों की ओर

15,500 सेकंड: एफिशिएंटनेट और लाइटवेट फाइन-ट्यूनिंग का उपयोग करके लीन यूएवी वर्गीकरण

एटमोसएमजे: वर्ष पैमाने से परे एआई मौसम पूर्वानुमान के लिए गेटिंग तंत्र पर पुनर्विचार

बड़े भाषा मॉडल में मतिभ्रम नियंत्रण की मौलिक असंभवता पर

अगली पीढ़ी के विस्तारित वास्तविकता प्रणालियों के लिए बहु-मोडल बहु-कार्य संघीय आधार मॉडल: AR/VR/MR में गोपनीयता-संरक्षण वितरित बुद्धिमत्ता की ओर

केवल-पाठ्य तर्क शून्य-शॉट बहुविध मूल्यांकनकर्ताओं को मुक्त करता है

कैन: एलएलएम का अपहरण - दुर्भावनापूर्ण सिस्टम प्रॉम्प्ट के माध्यम से मानव वार्तालाप

कम समझाएँ, अधिक समझें: वैयक्तिकृत पैरामीटर-कुशल फ़ाइन-ट्यूनिंग के माध्यम से शब्दजाल का पता लगाना

क्या जीवित है? जीवन की परिभाषा पर विविध विचारों का एक मेटा-विश्लेषण

ब्लैक-बॉक्स कॉम्बिनेटोरियल ऑप्टिमाइज़ेशन के लिए एक जेनरेटिव न्यूरल एनीलर

ग्रिल: ऑटोएनकोडर्स पर प्रतिकूल हमलों को बढ़ाने के लिए खराब स्थिति वाली परतों में ग्रेडिएंट सिग्नल की बहाली

कॉस्टफ़िल्टर-एडी: मिलान लागत फ़िल्टरिंग के माध्यम से विसंगति का पता लगाना बढ़ाना

Mj\"olnir: वैश्विक बिजली चमक घनत्व के लिए एक गहन शिक्षण पैरामीटरीकरण ढाँचा

आरजीबी-इवेंट आधारित पैदल यात्री विशेषता पहचान: एक बेंचमार्क डेटासेट और एक असममित आरडब्ल्यूकेवी फ्यूजन फ्रेमवर्क

प्रोटोईसीजीनेट: कंट्रास्टिव लर्निंग के साथ मल्टी-लेबल ईसीजी वर्गीकरण के लिए केस-आधारित व्याख्यात्मक गहन लर्निंग

वाइड-एंगल छवियों से परे: अप्रशिक्षित स्थानिक-समय अनुकूलन के माध्यम से संरचना-से-विस्तार वीडियो पोर्ट्रेट सुधार

CITRAS: समय श्रृंखला पूर्वानुमान के लिए सहचर-सूचित ट्रांसफार्मर

रूब्रिक ही आपकी ज़रूरत है: प्रश्न-विशिष्ट रूब्रिक के साथ एलएलएम-आधारित कोड मूल्यांकन को बेहतर बनाना

पिक्सेल से प्लानर पुशिंग के लिए प्रसार नीतियों के सिम-और-रियल सह-प्रशिक्षण का अनुभवजन्य विश्लेषण

सिंपलआरएल-ज़ू: खुले आधार मॉडल के लिए शून्य सुदृढीकरण सीखने की जांच और नियंत्रण

NuPlanQA: बहु-मोडल बड़े भाषा मॉडल में बहु-दृश्य ड्राइविंग दृश्य समझ के लिए एक बड़े पैमाने का डेटासेट और बेंचमार्क

आइटम प्रतिक्रिया सिद्धांत में कठिनाई और भेदभाव पर आइटम-लेखन दोषों का प्रभाव

आवर्धक कांच के माध्यम से: मतिभ्रम-मुक्त वीएलएम डिकोडिंग के लिए अनुकूली बोध आवर्धन

सर्च-आर1: एलएलएम को तर्क करने और सर्च इंजनों का लाभ उठाने के लिए प्रशिक्षण देना, सुदृढीकरण सीखने के साथ

लक्ष्य-उन्मुख अर्थ संचार के लिए पुल-आधारित क्वेरी शेड्यूलिंग

सख्त निचली सीमाओं के साथ बहु-एजेंट पथ खोज में फोकल खोज को तेज करना

रेलगन: विभिन्न वातावरणों और कार्यों में बहु-एजेंट पथ खोज के लिए एक एकीकृत कन्वोल्यूशनल नीति

अल्ट्राएसटीएफ: बड़े पैमाने पर स्थानिक-कालिक पूर्वानुमान के लिए अल्ट्रा-कॉम्पैक्ट मॉडल

PTQ1.61: बड़े भाषा मॉडल के लिए अत्यंत निम्न-बिट पोस्ट-ट्रेनिंग क्वांटिज़ेशन विधियों की वास्तविक सीमा को आगे बढ़ाएँ

अनुकूली जोखिम अनुमान के लिए इलेक्ट्रॉनिक मेडिकल रिकॉर्ड का आधारभूत मॉडल

टूल-संवर्धित एलएलएम के लिए टूल अनलर्निंग

छवियों के बिना दृष्टि: एकल संपीड़न माप से अंत-से-अंत कंप्यूटर दृष्टि

एक सॉफ्टवेयर इंजीनियर जेनरेटिव मॉडल कैसे तैयार करता है? स्थिर प्रसार पूर्वाग्रह पर एक केस स्टडी

3DTTNet: ऑफ-रोड वातावरण के लिए मल्टीमॉडल फ्यूजन-आधारित 3D ट्रैवर्सेबल टेरेन मॉडलिंग

DOGR: बहुमुखी दृश्य दस्तावेज़ ग्राउंडिंग और रेफ़रिंग की ओर

विज़न लैंग्वेज मॉडल फीडबैक से वास्तविक दुनिया में ऑफ़लाइन सुदृढीकरण सीखना

मॉडल की मजबूती का कारण-कार्य-संचालित ऑडिट

ऑटैलिक: संदर्भ में एंटी-ऑटिस्टिक एबलिस्ट भाषा के लिए एक डेटासेट

एडाप्टर पुनर्प्राप्ति से परे: विरल कार्य प्रक्षेपण के माध्यम से अव्यक्त ज्यामिति-संरक्षण संरचना

Pyhgf: पूर्वानुमानित कोडिंग के लिए एक तंत्रिका नेटवर्क लाइब्रेरी

एआई के संदर्भ में मानवीय पूर्वाग्रह: एआई द्वारा उत्पन्न कहे जाने वाले पाठ के प्रति मानवीय निर्णय की जाँच

AVG-LLaVA: अनुकूली दृश्य ग्रैन्युलैरिटी वाला एक कुशल बड़ा मल्टीमॉडल मॉडल

पार्स ट्रीज़ गाइडेड एलएलएम प्रॉम्प्ट कम्प्रेशन

एक मॉडल, कोई भी संयोजक प्रश्न: अपूर्ण ज्ञान ग्राफ़ पर प्रश्नों के उत्तर देने के लिए ग्राफ़ तंत्रिका नेटवर्क

कनेक्टेड और स्वचालित वाहनों के बहु-एजेंट सहकारी निर्णय लेने के लिए एक मूल्य आधारित समानांतर अद्यतन MCTS विधि

भाषा मॉडल में निष्पक्षता की परिभाषाएँ समझाई गईं

सिटीलाइट: समन्वित शहर-स्तरीय यातायात सिग्नल नियंत्रण के लिए एक पड़ोस-समावेशी सार्वभौमिक मॉडल

समय साक्ष्य संलयन नेटवर्क: दीर्घकालिक समय श्रृंखला पूर्वानुमान में बहु-स्रोत दृष्टिकोण

इवेंट कैमरों के साथ दीर्घकालिक दृश्य वस्तु ट्रैकिंग: एक एसोसिएटिव मेमोरी संवर्धित ट्रैकर और एक बेंचमार्क डेटासेट

हल्क: मानव-केंद्रित कार्यों के लिए एक सार्वभौमिक ज्ञान अनुवादक

क्लस्टर धारणा से ग्राफ कन्वोल्यूशन तक: ग्राफ-आधारित अर्ध-पर्यवेक्षित शिक्षण पर पुनर्विचार

एक एम्बेडेड हार्डवेयर प्लेटफ़ॉर्म पर पर्यावरणीय ध्वनि वर्गीकरण

यूएमएल अनुक्रम आरेखों पर आधारित औद्योगिक कोड निर्माण के लिए डेटा निर्भरता अनुमान

InqEduAgent: अनुकूली AI लर्निंग, गॉसियन प्रोसेस ऑग्मेंटेशन के साथ साझेदारी करता है

एसई-एजेंट: एलएलएम-आधारित एजेंटों के साथ बहु-चरणीय तर्क में आत्म-विकास प्रक्षेप पथ अनुकूलन

आरएल-प्लस: हाइब्रिड-पॉलिसी ऑप्टिमाइज़ेशन के साथ सुदृढीकरण सीखने में एलएलएम की क्षमता सीमा के पतन का मुकाबला करना

उच्च गेज प्रवाह मॉडल

सोचें कि कैसे सोचें: बड़े तर्क मॉडल में स्वायत्त कठिनाई संज्ञान के साथ अति-विचार को कम करना

आईएस-बेंच: दैनिक घरेलू कार्यों में वीएलएम-चालित सन्निहित एजेंटों की इंटरैक्टिव सुरक्षा का मूल्यांकन

एसएलआर: स्केलेबल लॉजिकल रीजनिंग के लिए स्वचालित संश्लेषण

एसडब्ल्यूई-बेंच भ्रम: जब अत्याधुनिक एलएलएम तर्क के बजाय याद करते हैं

अपोलो: उन्नत औपचारिक तर्क के लिए स्वचालित एलएलएम और लीन सहयोग

प्रतिकूल सहकारी युक्तिकरण: स्वच्छ डेटासेट में भी नकली सहसंबंधों का जोखिम

बहुविधीय वृहद भाषा मॉडलों के लिए अनुकूली रूप से अनुमान लगाना सीखना

व्यर्थ नियमों की अनदेखी करके कुशल नियम प्रेरण

एजेंट ने वह निर्णय क्यों लिया: सुदृढीकरण अधिगम के लिए विरोधाभासी स्पष्टीकरण अधिगम

पता लगाने की सीमा का मूल्यांकन: सुपर-रेज़ोल्यूशन अल्ट्रासाउंड स्थानीयकरण माइक्रोस्कोपी पर झूठे सकारात्मक और नकारात्मक का प्रभाव

सर्च-आर1: एलएलएम को तर्क करने और सर्च इंजनों का लाभ उठाने के लिए प्रशिक्षण देना, सुदृढीकरण सीखने के साथ

Created by

Haebom

लेखक

बोवेन जिन, हांसी ज़ेंग, जेनरुई यू, जिनसुंग यून, सेर्कन अरिक, डोंग वांग, हामेद ज़मानी, जियावेई हान

रूपरेखा

यह शोधपत्र सर्च-आर1 ढाँचा प्रस्तुत करता है, जो रीइन्फोर्समेंट लर्निंग (RL) का लाभ उठाकर एक बड़े पैमाने के भाषा मॉडल (LLM) को खोज क्वेरी उत्पन्न करने और वास्तविक समय पुनर्प्राप्ति के माध्यम से अनुमान प्रक्रिया के दौरान खोज परिणामों का उपयोग अनुमान लगाने में सक्षम बनाता है। सर्च-आर1 बहु-दौर पुनर्प्राप्ति अंतःक्रियाओं के माध्यम से LLM अनुमान पथ को अनुकूलित करता है और स्थिर RL लर्निंग के लिए एक खोज परिणाम टोकन मास्किंग तकनीक और एक सरल परिणाम-आधारित रिवॉर्ड फ़ंक्शन का उपयोग करता है। सात प्रश्न-उत्तर डेटासेट पर प्रायोगिक परिणाम दर्शाते हैं कि सर्च-आर1, Qwen2.5-7B मॉडल पर मौजूदा RAG तकनीक से 41% और Qwen2.5-3B मॉडल पर 20% बेहतर प्रदर्शन करता है। इसके अलावा, हम RL अनुकूलन विधियों, LLM चयन और खोज परिणाम लंबाई की गतिशीलता पर प्रायोगिक अंतर्दृष्टि प्रदान करते हैं। कोड और मॉडल चेकपॉइंट सार्वजनिक रूप से उपलब्ध हैं।

Takeaways, Limitations

•

Takeaways:

◦

सुदृढीकरण सीखने का उपयोग करके एलएलएम की खोज क्षमता को बढ़ाने के लिए एक नई पद्धति प्रस्तुत की गई है।

◦

हम बहु-पुनर्प्राप्ति इंटरैक्शन और टोकन मास्किंग के माध्यम से मजबूत आरएल सीखने और प्रदर्शन में सुधार का प्रदर्शन करते हैं।

◦

सामान्यीकरण को विभिन्न एलएलएम और डेटासेट पर प्रयोगात्मक परिणामों के माध्यम से सत्यापित किया जाता है।

◦

खुले कोड और मॉडल प्रकटीकरण के माध्यम से पुनरुत्पादन और अनुवर्ती अनुसंधान के लिए समर्थन।

•

Limitations:

◦

प्रायोगिक परिणाम एक विशिष्ट एलएलएम और डेटासेट तक सीमित हैं। एलएलएम और डेटासेट की एक विस्तृत श्रृंखला पर अतिरिक्त प्रयोगों की आवश्यकता है।

◦

परिणाम-आधारित पुरस्कार फ़ंक्शन की सरलता के कारण संभावित प्रदर्शन में गिरावट। एक अधिक परिष्कृत पुरस्कार फ़ंक्शन डिज़ाइन की आवश्यकता है।

◦

खोज इंजन विशेषताओं पर निर्भरता। विभिन्न खोज इंजनों में अनुप्रयोग और प्रदर्शन की तुलना आवश्यक है।

पीडीएफ देखें

Made with Slashpage