본 논문은 LLMs(대규모 언어 모델)을 코드 품질 평가자로 활용하는 "LLM-as-a-Judge" 패러다임의 효과성을 평가하기 위해 CodeJudgeBench라는 새로운 벤치마크를 제안합니다. CodeJudgeBench는 코드 생성, 코드 수정, 단위 테스트 생성 세 가지 코딩 작업에 걸쳐 LLM-as-a-Judge 모델의 성능을 평가하도록 설계되었습니다. 26개의 LLM-as-a-Judge 모델을 종합적으로 평가한 결과, 사고 능력을 갖춘 최신 모델이 사고 능력이 없는 모델보다 성능이 훨씬 뛰어나다는 것을 발견했습니다. 흥미롭게도 Qwen3-8B와 같이 상대적으로 작은 사고 능력 모델도 최대 70B 크기의 특수 훈련된 LLM-as-a-Judge 모델보다 성능이 우수했습니다. 그러나 모든 모델은 코딩 작업 판단에서 상당한 임의성을 보였으며, 응답 제시 순서 변경만으로도 정확도에 큰 영향을 미칠 수 있음을 보였습니다. 또한, 서로 다른 LLMs가 작성한 코드와 단위 테스트를 평가할 때 LLM-as-a-Judge 모델의 성능이 달라지는 변동성도 확인되었습니다. 마지막으로, LLM-as-a-Judge에 대한 최적 프롬프팅 전략을 연구하여 쌍방 비교가 스칼라 점수 방식보다 우수하며, 처리되지 않은 전체 LLM 응답에서 주석과 추론을 유지하는 것이 판단 성능을 향상시킨다는 것을 발견했습니다.