Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Multi-Turn Code Generation Through Single-Step Rewards

Created by
  • Haebom

作者

Arnav Kumar Jain, Gonzalo Gonzalez-Pumariega, Wayne Chen, Alexander M Rush, Wenting Zhao, Sanjiban Choudhury

概要

本論文は多重実行フィードバックからコードを生成する問題を扱う。従来の方法では、フィードバックなしでコードを生成したり、多重補償を最適化するために複雑な階層強化学習を使用しています。この論文では、単一ステップ補償のみを使用して多重回線コード生成の問題を解決する単純で拡張可能なアプローチである$\Mu$Codeを提案します。重要なアイデアは、コード生成が単一ステップで中間コード状態から正しいコードを回復できる単一ステップ回復可能Markov Decision Process(MDP)であることです。 $\mu$Code は、複数回の実行フィードバックに基づいてコード ソリューションを提供するジェネレータと、新しく生成されたコードを評価するバリデータを繰り返し学習します。実験結果は、提案された方法が最先端の基準モデルよりも著しい性能向上を達成することを示している。また、報酬モデルとポリシーの設計選択の分析を提供し、実行フィードバックを活用する $\mu$Code の効果を示します。コードはhttps://github.com/portal-cornell/muCodeで確認できます。

Takeaways、Limitations

Takeaways:単一ステップ補償のみを使用して多重回線コード生成の問題を効果的に解決する新しいアプローチを提示します。最先端の基準モデルと比較して性能向上。拡張性に優れた方法論の提示。実行フィードバックを効果的に活用する方法の提示オープンソースコード公開。
Limitations: $\mu$Code の単一ステップの回復可能な MDP 仮定がすべてのコード生成問題に適用可能であるかどうかに関する追加の研究が必要です。さまざまなプログラミング言語とコードの複雑さの一般化性能評価が必要です。報酬モデルと政策の設計に関するさらなる分析と改善の必要性
👍