Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CodeFuse-CommitEval: Towards Benchmarking LLM's Power on Commit Message and Code Change Inconsistency Detection

Created by
  • Haebom
Category
Empty

저자

Qingyu Zhang, Puzhuo Liu, Peng Di, Chenxiong Qian

CODEFUSE-COMMITEVAL: Message-Code Inconsistency Detection Benchmark for LLMs

개요

본 논문은 코드 변경 이유를 설명하는 커밋 메시지의 품질 저하 및 diff와의 불일치(MCI) 문제를 다룬다. 리뷰어 오해, 유지보수 어려움, 연구 데이터 오염, 보안 패치 은폐 등의 문제를 야기하는 MCI 탐지를 위한 최초의 벤치마크인 CODEFUSE-COMMITEVAL을 소개한다. ApacheCM 데이터셋을 기반으로 7가지 유형의 불일치 메시지를 생성하고, LLM을 사용한 MCI 탐지를 평가한다. 6개의 최신 LLM을 평가하고, few-shot prompting, chain-of-thought, extended context를 포함한 세 가지 보강 전략을 활용한다.

시사점, 한계점

시사점:
MCI 탐지를 위한 새로운 벤치마크 CODEFUSE-COMMITEVAL 제시.
LLM 기반 MCI 탐지 성능 평가 및 보강 전략 효과 분석.
일부 유형의 불일치(component, file-path, operation)는 탐지 용이, intent-level "purpose" 불일치는 탐지 어려움.
Richer context 및 balanced data의 필요성 강조.
한계점:
모델 간 토큰 사용량 차이 존재.
보강 전략에 따른 성능 변화의 일관성 부족.
intent-level "purpose" 불일치 탐지 정확도 낮음.
더욱 풍부한 문맥과 균형 잡힌 데이터 필요.
👍