दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

AI-SearchPlanner: पैरेटो-ऑप्टिमल मल्टी-ऑब्जेक्टिव रीइन्फोर्समेंट लर्निंग के माध्यम से मॉड्यूलर एजेंटिक सर्च

Created by
  • Haebom

लेखक

लैंग मेई, ज़िहान यांग, चोंग चेन

रूपरेखा

यह पत्र एक बड़े पैमाने पर भाषा मॉडल (एलएलएम) के एक खोज इंजन के साथ एकीकरण की पड़ताल करता है, जो एलएलएम के आंतरिक पूर्व प्रशिक्षित ज्ञान और बाहरी जानकारी का लाभ उठाता है। विशेष रूप से, हम सुदृढीकरण सीखने (आरएल) का उपयोग करके खोज इंजन के साथ बातचीत के कई दौर के माध्यम से एलएलएम अनुमान को बढ़ाने के लिए एक विधि का प्रस्ताव करते हैं। मौजूदा आरएल-आधारित खोज एजेंट खोज योजना और प्रश्न उत्तर (क्यूए) कार्यों दोनों को संभालने के लिए एक एकल एलएलएम पर भरोसा करते हैं, जिससे दोनों कार्यों को एक साथ अनुकूलित करने की उनकी क्षमता सीमित हो जाती है। उच्च गुणवत्ता वाले क्यूए को सुनिश्चित करने के लिए बड़े, निश्चित एलएलएम का उपयोग करने वाले परिष्कृत एआई खोज प्रणालियों की व्यावहारिकता को ध्यान में रखते हुए, हम एआई -सर्चप्लानर का प्रस्ताव करते हैं, जो एक उपन्यास सुदृढीकरण सीखने का ढांचा है जो खोज योजना के लिए समर्पित एक छोटे, प्रशिक्षित एलएलएम का उपयोग करता है। वास्तविक दुनिया के डेटासेट पर व्यापक प्रयोगों से पता चलता है कि AI-SearchPlanner दक्षता और प्रभावशीलता दोनों में मौजूदा RL-आधारित खोज एजेंटों से बेहतर प्रदर्शन करता है, और विभिन्न प्रकार के निश्चित QA मॉडल और डेटा डोमेन में मजबूत सामान्यीकरण प्रदर्शित करता है।

Takeaways, Limitations

Takeaways:
हम एक नवीन RL-आधारित खोज ढांचा (AI-SearchPlanner) प्रस्तुत करते हैं जो स्थिर, उच्च-प्रदर्शन QA मॉडल का लाभ उठाकर दक्षता और प्रभावशीलता में एक साथ सुधार करता है।
प्रत्येक कार्य के लिए अनुकूलित मॉडल का उपयोग करके खोज योजना और प्रश्न उत्तर को अलग करके प्रदर्शन में सुधार करें।
डबल-प्रतिपूरक छंटाई और पेरेटो अनुकूलन के माध्यम से खोज योजनाओं की गुणवत्ता और दक्षता को संतुलित करें।
यह विभिन्न निश्चित QA मॉडल और डेटा डोमेन में उत्कृष्ट सामान्यीकरण प्रदर्शन दर्शाता है।
Limitations:
प्रस्तावित विधि का प्रदर्शन प्रयुक्त निश्चित QA मॉडल की गुणवत्ता पर निर्भर हो सकता है।
प्रायोगिक डेटासेट का दायरा सीमित हो सकता है, और अन्य डेटासेट पर सामान्यीकरण प्रदर्शन का सत्यापन आवश्यक है।
जैसे-जैसे AI-SearchPlanner की जटिलता बढ़ती है, इसकी कम्प्यूटेशनल लागत भी बढ़ सकती है।
दीर्घकालिक खोज योजना और जटिल प्रश्नों के लिए अतिरिक्त प्रदर्शन मूल्यांकन की आवश्यकता होती है।
👍