यह पत्र एक बड़े पैमाने पर भाषा मॉडल (एलएलएम) के एक खोज इंजन के साथ एकीकरण की पड़ताल करता है, जो एलएलएम के आंतरिक पूर्व प्रशिक्षित ज्ञान और बाहरी जानकारी का लाभ उठाता है। विशेष रूप से, हम सुदृढीकरण सीखने (आरएल) का उपयोग करके खोज इंजन के साथ बातचीत के कई दौर के माध्यम से एलएलएम अनुमान को बढ़ाने के लिए एक विधि का प्रस्ताव करते हैं। मौजूदा आरएल-आधारित खोज एजेंट खोज योजना और प्रश्न उत्तर (क्यूए) कार्यों दोनों को संभालने के लिए एक एकल एलएलएम पर भरोसा करते हैं, जिससे दोनों कार्यों को एक साथ अनुकूलित करने की उनकी क्षमता सीमित हो जाती है। उच्च गुणवत्ता वाले क्यूए को सुनिश्चित करने के लिए बड़े, निश्चित एलएलएम का उपयोग करने वाले परिष्कृत एआई खोज प्रणालियों की व्यावहारिकता को ध्यान में रखते हुए, हम एआई -सर्चप्लानर का प्रस्ताव करते हैं, जो एक उपन्यास सुदृढीकरण सीखने का ढांचा है जो खोज योजना के लिए समर्पित एक छोटे, प्रशिक्षित एलएलएम का उपयोग करता है। वास्तविक दुनिया के डेटासेट पर व्यापक प्रयोगों से पता चलता है कि AI-SearchPlanner दक्षता और प्रभावशीलता दोनों में मौजूदा RL-आधारित खोज एजेंटों से बेहतर प्रदर्शन करता है, और विभिन्न प्रकार के निश्चित QA मॉडल और डेटा डोमेन में मजबूत सामान्यीकरण प्रदर्शित करता है।