दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

सर्च-आर1: एलएलएम को तर्क करने और सर्च इंजनों का लाभ उठाने के लिए प्रशिक्षण देना, सुदृढीकरण सीखने के साथ

Created by
  • Haebom

लेखक

बोवेन जिन, हांसी ज़ेंग, जेनरुई यू, जिनसुंग यून, सेर्कन अरिक, डोंग वांग, हामेद ज़मानी, जियावेई हान

रूपरेखा

यह शोधपत्र सर्च-आर1 ढाँचा प्रस्तुत करता है, जो रीइन्फोर्समेंट लर्निंग (RL) का लाभ उठाकर एक बड़े पैमाने के भाषा मॉडल (LLM) को खोज क्वेरी उत्पन्न करने और वास्तविक समय पुनर्प्राप्ति के माध्यम से अनुमान प्रक्रिया के दौरान खोज परिणामों का उपयोग अनुमान लगाने में सक्षम बनाता है। सर्च-आर1 बहु-दौर पुनर्प्राप्ति अंतःक्रियाओं के माध्यम से LLM अनुमान पथ को अनुकूलित करता है और स्थिर RL लर्निंग के लिए एक खोज परिणाम टोकन मास्किंग तकनीक और एक सरल परिणाम-आधारित रिवॉर्ड फ़ंक्शन का उपयोग करता है। सात प्रश्न-उत्तर डेटासेट पर प्रायोगिक परिणाम दर्शाते हैं कि सर्च-आर1, Qwen2.5-7B मॉडल पर मौजूदा RAG तकनीक से 41% और Qwen2.5-3B मॉडल पर 20% बेहतर प्रदर्शन करता है। इसके अलावा, हम RL अनुकूलन विधियों, LLM चयन और खोज परिणाम लंबाई की गतिशीलता पर प्रायोगिक अंतर्दृष्टि प्रदान करते हैं। कोड और मॉडल चेकपॉइंट सार्वजनिक रूप से उपलब्ध हैं।

Takeaways, Limitations

Takeaways:
सुदृढीकरण सीखने का उपयोग करके एलएलएम की खोज क्षमता को बढ़ाने के लिए एक नई पद्धति प्रस्तुत की गई है।
हम बहु-पुनर्प्राप्ति इंटरैक्शन और टोकन मास्किंग के माध्यम से मजबूत आरएल सीखने और प्रदर्शन में सुधार का प्रदर्शन करते हैं।
सामान्यीकरण को विभिन्न एलएलएम और डेटासेट पर प्रयोगात्मक परिणामों के माध्यम से सत्यापित किया जाता है।
खुले कोड और मॉडल प्रकटीकरण के माध्यम से पुनरुत्पादन और अनुवर्ती अनुसंधान के लिए समर्थन।
Limitations:
प्रायोगिक परिणाम एक विशिष्ट एलएलएम और डेटासेट तक सीमित हैं। एलएलएम और डेटासेट की एक विस्तृत श्रृंखला पर अतिरिक्त प्रयोगों की आवश्यकता है।
परिणाम-आधारित पुरस्कार फ़ंक्शन की सरलता के कारण संभावित प्रदर्शन में गिरावट। एक अधिक परिष्कृत पुरस्कार फ़ंक्शन डिज़ाइन की आवश्यकता है।
खोज इंजन विशेषताओं पर निर्भरता। विभिन्न खोज इंजनों में अनुप्रयोग और प्रदर्शन की तुलना आवश्यक है।
👍