Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

TENET: Leveraging Tests Beyond Validation for Code Generation

Created by
  • Haebom

作者

Yiran Hu, Nan Jiang, Shanchao Liang, Yi Wu, Lin Tan

概要

本稿では、TDD環境で複雑な実際のコードストアの関数を生成するためのLLMエージェントであるTENETを紹介します。 TENETは、(1)さまざまな使用シナリオを最大化する簡潔なテストスイートの選択、(2)インタラクティブデバッグによる関連コードの効率的な検索、(3)失敗分析、コンテキスト補足、およびコード改善を繰り返す反省ベースの改善ワークフローの3つのコンポーネントを特徴としています。 TENETは、RepoCodとRepoEvalのベンチマークでそれぞれ69.08%と81.77%のPass @ 1を達成し、最高のエージェントベースのベースラインよりも優れています。さらに、リポジトリレベルのコンテキストを使用したTDDコード生成の最初の研究では、テストスイートのさまざまな側面がTDD環境でLLMエージェントのパフォーマンスに与える影響を調べます。

Takeaways、Limitations

TDD環境でLLMを使用したコード生成の効果的なアプローチを提示します。
RepoCodとRepoEvalのベンチマークで、従来の方法論と比較して高いパフォーマンスを達成しました。
テストスイート、コード検索、フィードバックベースの改善のための具体的な方法論を提示します。
ストレージレベルのコンテキストを活用してコード生成の精度を向上させます。
テストベースのコード生成に関する研究が不足している状況で新しい方向性を提示する。
実際のコードリポジトリの関数生成に焦点を当て、研究の実用性を強調する。
特定のベンチマークのパフォーマンス評価だけでは一般化が困難になる可能性があります。
LLM依存性のため、LLMモデルの変化に応じてパフォーマンスが変動する可能性があります。
複雑な実際のコードストアへの適用に関するさらなる研究が必要です。
提案された方法論の拡張性と他のドメインへの適用性のさらなる検証が必要である。
テストスイートの効率的な選択の最適化が必要です。
👍