Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Code Execution as Grounded Supervision for LLM Reasoning

Created by
  • Haebom

作者

Dongwon Jung、Wenxuan Zhou、Muhao Chen

概要

本論文では、大規模言語モデル(LLM)の推論能力を向上させるために、プログラム実行の決定性を活用して高品質のChain of Thoughtマップデータを生成するスケーラブルな方法を提案します。既存の人間の注釈やエラーが発生しやすいLLM生成CoTに頼るのではなく、コード実行から検証可能なステップバイステップの推論プロセスを抽出し、自然言語のCoT推論に変換します。さまざまなドメインの推論ベンチマーク実験によって提案された方法は、さまざまなタスクでLLMの転移可能な推論能力を効果的に向上させることを示しています。さらに、アブレーション研究は、方法論が非常に正確な推論データを生成し、無意味な反復と過度の事故を減らし、推論の間のトークン全体の長さを減らすことを確認しました。

Takeaways、Limitations

Takeaways:
プログラム実行の決定性を活用して信頼性が高く正確なCoTマップデータを生成します。
様々な推論作業におけるLLMの推論能力の向上
推論データの精度検証と推論中のトークン長の短縮
ヒト注釈とLLM生成CoTの限界を克服するスケーラブルな方法の提示
Limitations:
具体的なLimitationsへの言及は論文の要約に含まれていません。 (例:適用可能なタスクの制限、特定の種類のコード構造の難しさなど)
具体的な方法論の制約や性能低下要因に関する情報が不足している。
👍