यह शोधपत्र बड़े पैमाने के भाषा मॉडल (एलएलएम) की नियोजन और अनुमान क्षमताओं को बेहतर बनाने के लिए मापनीय और विश्वसनीय मूल्यांकन डेटा की कमी को संबोधित करता है। इसे प्राप्त करने के लिए, हम एक उपयुक्त डोमेन, स्वचालित वर्कफ़्लो जनरेशन का चयन करते हैं, और NL2Flow प्रस्तुत करते हैं, जो प्राकृतिक भाषा, संरचित मध्यवर्ती अभ्यावेदन और औपचारिक PDDL का उपयोग करके नियोजन समस्याएँ उत्पन्न करने के लिए एक पूर्णतः स्वचालित प्रणाली है। NL2Flow 2,296 कम-कठिनाई वाली समस्याओं का एक डेटासेट उत्पन्न करता है और कार्य-विशिष्ट अनुकूलन या आर्किटेक्चर संशोधन के बिना कई ओपन-सोर्स, निर्देश-संचालित एलएलएम का मूल्यांकन करता है। मूल्यांकन के परिणाम दर्शाते हैं कि सर्वोत्तम प्रदर्शन करने वाला मॉडल मान्य योजनाएँ उत्पन्न करने के लिए 86% और व्यवहार्य योजनाओं वाली समस्याओं के लिए इष्टतम योजनाएँ उत्पन्न करने के लिए 69% की सफलता दर प्राप्त करता है। प्रतिगमन विश्लेषण दर्शाता है कि समस्या विशेषताओं का प्रभाव मॉडल और प्रॉम्प्ट डिज़ाइन के आधार पर भिन्न होता है। इसके अलावा, हम वर्कफ़्लो परिभाषाओं के लिए एक प्राकृतिक भाषा-से-JSON कनवर्टर के रूप में एलएलएम की क्षमता की जाँच करते हैं और बाद के प्रतीकात्मक संगणन उपकरणों और प्रतीकात्मक योजनाकारों के साथ एकीकरण को सुगम बनाने के लिए प्राकृतिक भाषा वर्कफ़्लो विवरणों पर इसके अनुवाद प्रदर्शन का मूल्यांकन करते हैं। कार्यप्रवाह समस्या के JSON निरूपण में प्राकृतिक भाषा को परिवर्तित करने से सीधे योजना बनाने की तुलना में कम सफलता दर प्राप्त हुई, जिससे यह संकेत मिलता है कि अनुमान कार्य का अनावश्यक विघटन प्रदर्शन को कम कर सकता है और प्राकृतिक भाषा से क्रियाओं का प्रत्यक्ष अनुमान लगाने में सक्षम मॉडलों के लाभों पर प्रकाश डालता है। जैसे-जैसे LLM अनुमान का दायरा बढ़ती हुई जटिल समस्याओं तक पहुँचता है, इन प्रणालियों में उभरती हुई बाधाओं और त्रुटि के स्रोतों को समझना महत्वपूर्ण है।