Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

RepoDebug: Repository-Level Multi-Task and Multi-Language Debugging Evaluation of Large Language Models

Created by
  • Haebom

作者

Jingjing Liu, Zeming Liu, Zihao Cheng, Mengliang He, Xiaoming Shi, Yuhang Guo, Xiangrong Zhu, Yuanfang Guo, Yunhong Wang, Haifeng Wang

概要

この論文は、大規模言語モデル(LLM)のコードデバッグ能力、特に自動プログラム回復能力に焦点を当てています。既存のコードデバッグデータセットが主に関数単位のコードリカバリに焦点を当てており、現実的なストレージレベルのシナリオを考慮に入れない限界を指摘し、さまざまなタスク、言語、エラータイプを含むマルチタスク、および多言語ストアレベルのコードデバッグデータセットであるRepoDebugを提示します。 RepoDebugは、8つのプログラミング言語、22種類のエラー、3つのデバッグ操作をサポートします。 10のLLMを対象とした実験の結果、最高のパフォーマンスモデルであるClaude 3.5 Sonnectでさえ、ストレージレベルのデバッグで高いパフォーマンスが見られないことがわかりました。

Takeaways、Limitations

Takeaways:
現実的なストレージレベルのコードデバッグデータセットであるRepoDebugを提供し、LLMのコードデバッグパフォーマンス評価に新しい基準を提供します。
さまざまなプログラミング言語やエラータイプを含む、LLMの一般化能力の評価に役立ちます。
LLMのリポジトリレベルコードのデバッグ能力の現状と限界を明確に示す。
Limitations:
RepoDebugデータセットはまだあらゆる種類のストレージレベルのエラーとプログラミング言語を完全に網羅していない可能性があります。
評価に使用されるLLMの種類は限られている可能性があります。
ストレージレベルのデバッグの複雑さを完全に反映していない可能性があります。
👍