Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

RepoDebug: Repository-Level Multi-Task and Multi-Language Debugging Evaluation of Large Language Models

Created by
  • Haebom

저자

Jingjing Liu, Zeming Liu, Zihao Cheng, Mengliang He, Xiaoming Shi, Yuhang Guo, Xiangrong Zhu, Yuanfang Guo, Yunhong Wang, Haifeng Wang

개요

본 논문은 대규모 언어 모델(LLM)의 코드 디버깅 능력, 특히 자동 프로그램 복구 능력에 초점을 맞추고 있습니다. 기존의 코드 디버깅 데이터셋이 주로 함수 단위의 코드 복구에 집중하여 현실적인 저장소 수준의 시나리오를 고려하지 못하는 한계를 지적하며, 다양한 작업, 언어, 에러 유형을 포함하는 다중 작업 및 다중 언어 저장소 수준 코드 디버깅 데이터셋인 RepoDebug를 제시합니다. RepoDebug는 8가지 프로그래밍 언어와 22가지 유형의 에러, 3가지 디버깅 작업을 지원합니다. 10개의 LLM을 대상으로 한 실험 결과, 최고 성능 모델인 Claude 3.5 Sonnect조차도 저장소 수준 디버깅에서 높은 성능을 보이지 못함을 확인했습니다.

시사점, 한계점

시사점:
현실적인 저장소 수준의 코드 디버깅 데이터셋인 RepoDebug를 제공하여 LLM의 코드 디버깅 성능 평가에 새로운 기준을 제시합니다.
다양한 프로그래밍 언어와 에러 유형을 포함하여 LLM의 일반화 능력 평가에 도움이 됩니다.
LLM의 저장소 수준 코드 디버깅 능력의 현황과 한계를 명확히 제시합니다.
한계점:
RepoDebug 데이터셋이 아직 모든 종류의 저장소 수준 에러와 프로그래밍 언어를 완벽히 포괄하지 못할 수 있습니다.
평가에 사용된 LLM의 종류가 제한적일 수 있습니다.
저장소 수준 디버깅의 복잡성을 완전히 반영하지 못할 가능성이 있습니다.
👍