본 논문은 코드 변경 이유를 설명하는 커밋 메시지의 품질 저하 및 diff와의 불일치(MCI) 문제를 다룬다. 리뷰어 오해, 유지보수 어려움, 연구 데이터 오염, 보안 패치 은폐 등의 문제를 야기하는 MCI 탐지를 위한 최초의 벤치마크인 CODEFUSE-COMMITEVAL을 소개한다. ApacheCM 데이터셋을 기반으로 7가지 유형의 불일치 메시지를 생성하고, LLM을 사용한 MCI 탐지를 평가한다. 6개의 최신 LLM을 평가하고, few-shot prompting, chain-of-thought, extended context를 포함한 세 가지 보강 전략을 활용한다.