यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है। यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है। पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।
यह शोधपत्र सर्च-आर1 ढाँचा प्रस्तुत करता है, जो रीइन्फोर्समेंट लर्निंग (RL) का लाभ उठाकर एक बड़े पैमाने के भाषा मॉडल (LLM) को खोज क्वेरी उत्पन्न करने और वास्तविक समय पुनर्प्राप्ति के माध्यम से अनुमान प्रक्रिया के दौरान खोज परिणामों का उपयोग अनुमान लगाने में सक्षम बनाता है। सर्च-आर1 बहु-दौर पुनर्प्राप्ति अंतःक्रियाओं के माध्यम से LLM अनुमान पथ को अनुकूलित करता है और स्थिर RL लर्निंग के लिए एक खोज परिणाम टोकन मास्किंग तकनीक और एक सरल परिणाम-आधारित रिवॉर्ड फ़ंक्शन का उपयोग करता है। सात प्रश्न-उत्तर डेटासेट पर प्रायोगिक परिणाम दर्शाते हैं कि सर्च-आर1, Qwen2.5-7B मॉडल पर मौजूदा RAG तकनीक से 41% और Qwen2.5-3B मॉडल पर 20% बेहतर प्रदर्शन करता है। इसके अलावा, हम RL अनुकूलन विधियों, LLM चयन और खोज परिणाम लंबाई की गतिशीलता पर प्रायोगिक अंतर्दृष्टि प्रदान करते हैं। कोड और मॉडल चेकपॉइंट सार्वजनिक रूप से उपलब्ध हैं।
Takeaways, Limitations
•
Takeaways:
◦
सुदृढीकरण सीखने का उपयोग करके एलएलएम की खोज क्षमता को बढ़ाने के लिए एक नई पद्धति प्रस्तुत की गई है।
◦
हम बहु-पुनर्प्राप्ति इंटरैक्शन और टोकन मास्किंग के माध्यम से मजबूत आरएल सीखने और प्रदर्शन में सुधार का प्रदर्शन करते हैं।
◦
सामान्यीकरण को विभिन्न एलएलएम और डेटासेट पर प्रयोगात्मक परिणामों के माध्यम से सत्यापित किया जाता है।
◦
खुले कोड और मॉडल प्रकटीकरण के माध्यम से पुनरुत्पादन और अनुवर्ती अनुसंधान के लिए समर्थन।
•
Limitations:
◦
प्रायोगिक परिणाम एक विशिष्ट एलएलएम और डेटासेट तक सीमित हैं। एलएलएम और डेटासेट की एक विस्तृत श्रृंखला पर अतिरिक्त प्रयोगों की आवश्यकता है।
◦
परिणाम-आधारित पुरस्कार फ़ंक्शन की सरलता के कारण संभावित प्रदर्शन में गिरावट। एक अधिक परिष्कृत पुरस्कार फ़ंक्शन डिज़ाइन की आवश्यकता है।
◦
खोज इंजन विशेषताओं पर निर्भरता। विभिन्न खोज इंजनों में अनुप्रयोग और प्रदर्शन की तुलना आवश्यक है।