Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

CoQuIR: A Comprehensive Benchmark for Code Quality-Aware Information Retrieval

Created by
  • Haebom

作者

Jiahui Geng, Fengyu Cai, Shaobo Cui, Qing Li, Liangwei Chen, Chenyang Lyu, Haonan Li, Derui Zhu, Walter Pretschner, Heinz Koeppl, Fakhri Karray

概要

本稿では、ソフトウェア開発におけるコードの再利用とデバッグ速度の向上に不可欠なコード検索の品質認識能力を評価するための大規模な多言語ベンチマークであるCoQuIRを提案します。従来のベンチマークが機能的関連性にのみ焦点を当てたのとは異なり、CoQuIRは、正確性、効率性、セキュリティ、保守性の4つの重要な次元を考慮して、11のプログラミング言語で42,725のクエリと134,907のコードスニペットの詳細な品質コメントを提供します。 Pairwise Preference AccuracyとMargin-based Ranking Scoreという2つの品質中心の評価指標と一緒に、23の検索モデルをベンチマークすることで、最高のパフォーマンスモデルでさえ、バグがあるか安全でないコードをより強力なコードと区別するのが難しいことがわかりました。さらに、コード品質認識を明示的に奨励する訓練方法の予備調査により、合成データセットを使用して様々なモデルにおける品質認識指標の改善を示し、その後のコード生成実験を通じてアプローチの効果を検証した。結論として、本研究は、コード検索システムに品質信号を組み込むことの重要性を強調し、より信頼性が高く強力なソフトウェア開発ツールの基礎を築く。

Takeaways、Limitations

Takeaways:
コード検索システムのコード品質(正確性、効率性、セキュリティ、保守性)を考慮する重要性を強調します。
大規模な多言語ベンチマークCoQuIRを提供し、コード検索モデルの品質認識能力を正確に評価できるようにします。
品質指向のトレーニング方法により品質認識性能を向上できることを示した。
より信頼性の高い強力なソフトウェア開発ツール開発の基盤を築きます。
Limitations:
CoQuIRベンチマークは、合成データセットを使用した予備実験結果に基づいているため、実際の世界データセットでのパフォーマンスをさらに検証する必要があります。
提示された品質中心の訓練方法の一般化の可能性に関するさらなる研究が必要である。
評価指標の限界と改善の可能性についての議論が不足する可能性があります。
👍