दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

एलएलएम योजना का स्केलिंग: पैरामीट्रिक समस्या निर्माण और कठोर मूल्यांकन के लिए एनएल2फ्लो

Created by
  • Haebom

लेखक

जुंगकू कांग

रूपरेखा

यह शोधपत्र बड़े पैमाने के भाषा मॉडल (एलएलएम) की नियोजन और अनुमान क्षमताओं को बेहतर बनाने के लिए मापनीय और विश्वसनीय मूल्यांकन डेटा की कमी को संबोधित करता है। इसे प्राप्त करने के लिए, हम एक उपयुक्त डोमेन, स्वचालित वर्कफ़्लो जनरेशन का चयन करते हैं, और NL2Flow प्रस्तुत करते हैं, जो प्राकृतिक भाषा, संरचित मध्यवर्ती अभ्यावेदन और औपचारिक PDDL का उपयोग करके नियोजन समस्याएँ उत्पन्न करने के लिए एक पूर्णतः स्वचालित प्रणाली है। NL2Flow 2,296 कम-कठिनाई वाली समस्याओं का एक डेटासेट उत्पन्न करता है और कार्य-विशिष्ट अनुकूलन या आर्किटेक्चर संशोधन के बिना कई ओपन-सोर्स, निर्देश-संचालित एलएलएम का मूल्यांकन करता है। मूल्यांकन के परिणाम दर्शाते हैं कि सर्वोत्तम प्रदर्शन करने वाला मॉडल मान्य योजनाएँ उत्पन्न करने के लिए 86% और व्यवहार्य योजनाओं वाली समस्याओं के लिए इष्टतम योजनाएँ उत्पन्न करने के लिए 69% की सफलता दर प्राप्त करता है। प्रतिगमन विश्लेषण दर्शाता है कि समस्या विशेषताओं का प्रभाव मॉडल और प्रॉम्प्ट डिज़ाइन के आधार पर भिन्न होता है। इसके अलावा, हम वर्कफ़्लो परिभाषाओं के लिए एक प्राकृतिक भाषा-से-JSON कनवर्टर के रूप में एलएलएम की क्षमता की जाँच करते हैं और बाद के प्रतीकात्मक संगणन उपकरणों और प्रतीकात्मक योजनाकारों के साथ एकीकरण को सुगम बनाने के लिए प्राकृतिक भाषा वर्कफ़्लो विवरणों पर इसके अनुवाद प्रदर्शन का मूल्यांकन करते हैं। कार्यप्रवाह समस्या के JSON निरूपण में प्राकृतिक भाषा को परिवर्तित करने से सीधे योजना बनाने की तुलना में कम सफलता दर प्राप्त हुई, जिससे यह संकेत मिलता है कि अनुमान कार्य का अनावश्यक विघटन प्रदर्शन को कम कर सकता है और प्राकृतिक भाषा से क्रियाओं का प्रत्यक्ष अनुमान लगाने में सक्षम मॉडलों के लाभों पर प्रकाश डालता है। जैसे-जैसे LLM अनुमान का दायरा बढ़ती हुई जटिल समस्याओं तक पहुँचता है, इन प्रणालियों में उभरती हुई बाधाओं और त्रुटि के स्रोतों को समझना महत्वपूर्ण है।

Takeaways, Limitations

Takeaways:
एलएलएम का उपयोग करके स्वचालित वर्कफ़्लो निर्माण के लिए एक नई मूल्यांकन पद्धति और डेटासेट (एनएल2फ्लो) प्रस्तुत करना।
एलएलएम की योजना निर्माण क्षमता पर अनुभवजन्य विश्लेषण परिणामों की प्रस्तुति (सर्वोत्तम प्रदर्शन करने वाले मॉडल की वैध योजनाएं बनाने में सफलता दर 86% थी और इष्टतम योजनाएं बनाने में सफलता दर 69% थी)।
समस्या विशेषताओं, मॉडलों और शीघ्र डिजाइन के परस्पर प्रभाव में अंतर्दृष्टि प्रदान करता है।
प्रत्यक्ष योजना निर्माण बनाम प्राकृतिक भाषा-से-JSON रूपांतरण की दक्षता की तुलना करके LLM अनुमान रणनीतियों में सुधार के लिए दिशा-निर्देश सुझाना।
Limitations:
वर्तमान में, केवल कम कठिनाई वाली समस्याओं का मूल्यांकन किया जाता है (जटिल समस्याओं पर एलएलएम प्रदर्शन निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है)।
अनुसंधान एक विशिष्ट डोमेन तक सीमित है (स्वचालित वर्कफ़्लो निर्माण) (अन्य डोमेन के लिए सामान्यीकरण की पुष्टि की आवश्यकता है)
उपयोग किए जाने वाले एलएलएम मॉडल ओपन-सोर्स, फाइन-ट्यून्ड मॉडल तक सीमित हैं (नवीनतम, बड़े पैमाने के मॉडल का मूल्यांकन आवश्यक है)।
👍