यह शोधपत्र NL2Flow प्रस्तुत करता है, जो एक स्वचालित पाइपलाइन है जिसे बड़े पैमाने के भाषा मॉडल (LLM) के वर्कफ़्लो नियोजन और अनुमान प्रदर्शन के मूल्यांकन हेतु स्केलेबल मूल्यांकन डेटा की कमी को दूर करने के लिए डिज़ाइन किया गया है। NL2Flow समस्या का एक संरचित मध्यवर्ती निरूपण उत्पन्न करता है और फिर उसे प्राकृतिक भाषा और औपचारिक PDDL में अनुवादित करता है। 2,296 कम-कठिनाई वाली समस्याओं के डेटासेट का उपयोग करते हुए, हमने कई ओपन-सोर्स, निर्देशित-ट्यून्ड LLM का मूल्यांकन किया। सबसे अच्छा प्रदर्शन करने वाला मॉडल मान्य योजनाएँ बनाने के लिए 86% और इष्टतम योजनाएँ बनाने के लिए 69% की सफलता दर प्राप्त करता है। प्रतिगमन विश्लेषण से पता चलता है कि समस्या विशेषताओं का प्रभाव मॉडल और प्रॉम्प्ट डिज़ाइन के आधार पर भिन्न होता है। विशेष रूप से, हम तंत्रिका प्रतीक एकीकरण के लाभों को यह प्रदर्शित करके प्रदर्शित करते हैं कि प्राकृतिक भाषा समस्याओं को संरचित JSON निरूपणों में परिवर्तित करने और फिर प्रतीकात्मक योजना बनाने से सफलता दर में उल्लेखनीय सुधार होता है। ये परिणाम LLM अनुमान में त्रुटियों के स्रोतों को समझने के महत्व को उजागर करते हैं क्योंकि यह जटिल कार्यों के लिए स्केल करता है।