본 논문은 대규모 언어 모델(LLM)의 코드 디버깅 능력, 특히 자동 프로그램 복구 능력에 초점을 맞추고 있습니다. 기존의 코드 디버깅 데이터셋이 주로 함수 단위의 코드 복구에 집중하여 현실적인 저장소 수준의 시나리오를 고려하지 못하는 한계를 지적하며, 다양한 작업, 언어, 에러 유형을 포함하는 다중 작업 및 다중 언어 저장소 수준 코드 디버깅 데이터셋인 RepoDebug를 제시합니다. RepoDebug는 8가지 프로그래밍 언어와 22가지 유형의 에러, 3가지 디버깅 작업을 지원합니다. 10개의 LLM을 대상으로 한 실험 결과, 최고 성능 모델인 Claude 3.5 Sonnect조차도 저장소 수준 디버깅에서 높은 성능을 보이지 못함을 확인했습니다.
시사점, 한계점
•
시사점:
◦
현실적인 저장소 수준의 코드 디버깅 데이터셋인 RepoDebug를 제공하여 LLM의 코드 디버깅 성능 평가에 새로운 기준을 제시합니다.
◦
다양한 프로그래밍 언어와 에러 유형을 포함하여 LLM의 일반화 능력 평가에 도움이 됩니다.
◦
LLM의 저장소 수준 코드 디버깅 능력의 현황과 한계를 명확히 제시합니다.
•
한계점:
◦
RepoDebug 데이터셋이 아직 모든 종류의 저장소 수준 에러와 프로그래밍 언어를 완벽히 포괄하지 못할 수 있습니다.