[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

CodeAssistBench (CAB): Dataset & Benchmarking for Multi-turn Chat-Based Code Assistance

Created by
  • Haebom

作者

Myeongsoo Kim, Shweta Garg, Baishakhi Ray, Varun Kumar, Anoop Deoras

概要

この論文は、既存のコード生成中心のベンチマークの限界を克服し、実際のコードベースを活用した多重プログラミング支援評価のための新しいベンチマークフレームワークであるCodeAssistBench(CAB)を提示します。 CABはGitHub問題データを利用して自動的にスケーラブルなデータセットを作成し、コンテナ化されたコードベース環境でモデルを評価します。 231のリポジトリ、7つのプログラミング言語、3,286の実際のプログラミング質問で構成されたテストセットで主要な大規模言語モデル(LLM)を評価したところ、単一の質問回答と比較して複雑なプロジェクト環境でのパフォーマンスが著しく低いことがわかりました。 (Stack Overflow質問の成功率70-83%に対するCAB質問解決率最大16.49%)。これは、単純な質問回答と複雑なプロジェクト固有の状況でのサポート提供との間の大きなパフォーマンスの違いを示しています。

Takeaways、Limitations

Takeaways:
実際のコードベースを活用した多次プログラミング支援評価の重要性を強調。
既存のベンチマークの限界を克服する新しいベンチマークフレームワーク(CAB)の提示。
LLMの実際の環境を適用する際のパフォーマンス低下の問題を明確に提示します。
複雑なプロジェクトの文脈におけるプログラミング支援技術の開発の必要性の提起
Limitations:
CABデータセットの範囲は特定のGitHubリポジトリに限定される可能性があります。
自動生成されたデータセットの品質と多様性の追加検証が必要です。
実際のユーザー状況を完全に反映できない可能性。
評価に使用されるLLMの種類とバージョンの明確な説明が必要です。
👍