Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CodeJudgeBench: Benchmarking LLM-as-a-Judge for Coding Tasks

Created by
  • Haebom

저자

Hongchao Jiang, Yiming Chen, Yushi Cao, Hung-yi Lee, Robby T. Tan

개요

본 논문은 LLMs(대규모 언어 모델)을 코드 품질 평가자로 활용하는 "LLM-as-a-Judge" 패러다임의 효과성을 평가하기 위해 CodeJudgeBench라는 새로운 벤치마크를 제안합니다. CodeJudgeBench는 코드 생성, 코드 수정, 단위 테스트 생성 세 가지 코딩 작업에 걸쳐 LLM-as-a-Judge 모델의 성능을 평가하도록 설계되었습니다. 26개의 LLM-as-a-Judge 모델을 종합적으로 평가한 결과, 사고 능력을 갖춘 최신 모델이 사고 능력이 없는 모델보다 성능이 훨씬 뛰어나다는 것을 발견했습니다. 흥미롭게도 Qwen3-8B와 같이 상대적으로 작은 사고 능력 모델도 최대 70B 크기의 특수 훈련된 LLM-as-a-Judge 모델보다 성능이 우수했습니다. 그러나 모든 모델은 코딩 작업 판단에서 상당한 임의성을 보였으며, 응답 제시 순서 변경만으로도 정확도에 큰 영향을 미칠 수 있음을 보였습니다. 또한, 서로 다른 LLMs가 작성한 코드와 단위 테스트를 평가할 때 LLM-as-a-Judge 모델의 성능이 달라지는 변동성도 확인되었습니다. 마지막으로, LLM-as-a-Judge에 대한 최적 프롬프팅 전략을 연구하여 쌍방 비교가 스칼라 점수 방식보다 우수하며, 처리되지 않은 전체 LLM 응답에서 주석과 추론을 유지하는 것이 판단 성능을 향상시킨다는 것을 발견했습니다.

시사점, 한계점

시사점:
CodeJudgeBench는 LLM-as-a-Judge 모델의 성능을 평가하기 위한 표준 벤치마크를 제공합니다.
사고 능력을 갖춘 LLM이 코드 평가 작업에서 더 나은 성능을 보임을 보여줍니다.
쌍방 비교 프롬프팅 전략과 주석 및 추론 정보 활용이 LLM-as-a-Judge 모델의 성능 향상에 기여합니다.
한계점:
LLM-as-a-Judge 모델은 여전히 상당한 임의성을 보이며, 응답 제시 순서와 LLMs의 차이에 따라 성능 변동이 큽니다.
이러한 결과는 LLM-as-a-Judge 모델의 신뢰성과 일관성에 대한 우려를 제기합니다.
👍