दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

एलएलएम योजना का स्केलिंग: पैरामीट्रिक समस्या निर्माण और कठोर मूल्यांकन के लिए एनएल2फ्लो

Created by
  • Haebom

लेखक

जुंगकू कांग

रूपरेखा

यह शोधपत्र NL2Flow प्रस्तुत करता है, जो एक स्वचालित पाइपलाइन है जिसे बड़े पैमाने के भाषा मॉडल (LLM) के वर्कफ़्लो नियोजन और अनुमान प्रदर्शन के मूल्यांकन हेतु स्केलेबल मूल्यांकन डेटा की कमी को दूर करने के लिए डिज़ाइन किया गया है। NL2Flow समस्या का एक संरचित मध्यवर्ती निरूपण उत्पन्न करता है और फिर उसे प्राकृतिक भाषा और औपचारिक PDDL में अनुवादित करता है। 2,296 कम-कठिनाई वाली समस्याओं के डेटासेट का उपयोग करते हुए, हमने कई ओपन-सोर्स, निर्देशित-ट्यून्ड LLM का मूल्यांकन किया। सबसे अच्छा प्रदर्शन करने वाला मॉडल मान्य योजनाएँ बनाने के लिए 86% और इष्टतम योजनाएँ बनाने के लिए 69% की सफलता दर प्राप्त करता है। प्रतिगमन विश्लेषण से पता चलता है कि समस्या विशेषताओं का प्रभाव मॉडल और प्रॉम्प्ट डिज़ाइन के आधार पर भिन्न होता है। विशेष रूप से, हम तंत्रिका प्रतीक एकीकरण के लाभों को यह प्रदर्शित करके प्रदर्शित करते हैं कि प्राकृतिक भाषा समस्याओं को संरचित JSON निरूपणों में परिवर्तित करने और फिर प्रतीकात्मक योजना बनाने से सफलता दर में उल्लेखनीय सुधार होता है। ये परिणाम LLM अनुमान में त्रुटियों के स्रोतों को समझने के महत्व को उजागर करते हैं क्योंकि यह जटिल कार्यों के लिए स्केल करता है।

Takeaways, Limitations

Takeaways:
हम एनएल2फ्लो प्रस्तुत करते हैं, जो एलएलएम में कार्यप्रवाह नियोजन और तर्क क्षमताओं का आकलन करने के लिए एक नवीन स्वचालित पाइपलाइन है।
एलएलएम की योजना निर्माण निष्पादन (86% प्रभावी योजना निर्माण, 69% इष्टतम योजना निर्माण) का मात्रात्मक मूल्यांकन और विश्लेषण प्रदान करता है।
तंत्रिका प्रतीक एकीकरण की प्रभावशीलता का प्रयोगात्मक प्रदर्शन (JSON मध्यवर्ती प्रतिनिधित्व का उपयोग करके)
समस्या विशेषताओं और मॉडल/प्रॉम्प्ट डिजाइन के बीच अंतःक्रिया में अंतर्दृष्टि प्रदान करता है।
एलएलएम अनुमान प्रदर्शन में सुधार के लिए निर्देश (त्रुटि कारणों का विश्लेषण और समाधान)
Limitations:
मूल्यांकन में प्रयुक्त समस्याओं की कठिनाई कम थी (2296 कम कठिनाई वाली समस्याएं)।
प्रयुक्त LLM खुले स्रोत तक सीमित है
अधिक जटिल कार्यों के लिए एलएलएम अनुमान प्रदर्शन का मूल्यांकन और विश्लेषण करने की आवश्यकता
मॉडलों और प्रॉम्प्ट डिज़ाइनों में प्रदर्शन अंतर का अधिक गहन विश्लेषण आवश्यक है।
👍