この論文は、大規模言語モデル(LLM)のワークフロー計画と推論能力を評価するためのスケーラブルな評価データ不足の問題を解決するために、自動化されたパイプラインNL2Flowを提示します。 NL2Flowは問題を構造化中間表現として生成し、それを自然言語と形式的なPDDLに変換します。 2296の低難易度問題データセットを使用して複数のオープンソース、指示調整されたLLMを評価した結果、最高性能モデルは有効な計画生成で86%、最適計画生成で69%の成功率を達成しました。回帰分析により,問題特性の影響はモデルとプロンプトの設計によって異なることがわかった。特に、自然言語の問題を構造化されたJSON表現に変換した後に、シンボル計画を実行することが成功率を大幅に向上させたことによって、神経記号統合の利点を示しています。これらの結果は、LLM推論におけるエラーの原因を理解することが複雑な作業に拡張されるときに重要であることを強調しています。