Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Scaling LLM Planning: NL2FLOW for Parametric Problem Generation and Rigorous Evaluation

Created by
  • Haebom

作者

Jungkoo Kang

概要

この論文は、大規模言語モデル(LLM)のワークフロー計画と推論能力を評価するためのスケーラブルな評価データ不足の問題を解決するために、自動化されたパイプラインNL2Flowを提示します。 NL2Flowは問題を構造化中間表現として生成し、それを自然言語と形式的なPDDLに変換します。 2296の低難易度問題データセットを使用して複数のオープンソース、指示調整されたLLMを評価した結果、最高性能モデルは有効な計画生成で86%、最適計画生成で69%の成功率を達成しました。回帰分析により,問題特性の影響はモデルとプロンプトの設計によって異なることがわかった。特に、自然言語の問題を構造化されたJSON表現に変換した後に、シンボル計画を実行することが成功率を大幅に向上させたことによって、神経記号統合の利点を示しています。これらの結果は、LLM推論におけるエラーの原因を理解することが複雑な作業に拡張されるときに重要であることを強調しています。

Takeaways、Limitations

Takeaways:
LLMのワークフロー計画と推論能力評価のための新しい自動化パイプラインNL2Flowの提示
LLMの計画生成性能の定量的評価と分析を提供する(有効計画生成86%、最適計画生成69%)
神経記号統合の効果を実験的に証明(JSON中間表現活用)
問題特性とモデル/プロンプト設計との相互作用に関する洞察を提供
LLM推論性能向上のための方向性の提示(エラー原因の分析と解決)
Limitations:
評価に使用された問題の難易度が低い(低難易度問題2296件)
使用されたLLMはオープンソースに限定されています
より複雑な作業のためのLLM推論性能の評価と分析が必要
モデルとプロンプト設計による性能差の詳細な分析が必要
👍