Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CodeJudgeBench: Benchmarking LLM-as-a-Judge for Coding Tasks

Created by
  • Haebom

저자

Hongchao Jiang, Yiming Chen, Yushi Cao, Hung-yi Lee, Robby T. Tan

개요

본 논문은 대규모 언어 모델(LLM)을 코드 평가자(LLM-as-a-Judge)로 활용하는 새로운 벤치마크인 CodeJudgeBench를 소개합니다. CodeJudgeBench는 코드 생성, 코드 수정, 단위 테스트 생성 세 가지 코딩 작업에 걸쳐 LLM-as-a-Judge 모델의 성능을 평가하도록 설계되었습니다. 26개의 LLM-as-a-Judge 모델을 종합적으로 벤치마킹한 결과, 사고 능력이 있는 최신 모델이 사고 능력이 없는 모델보다 성능이 훨씬 뛰어나다는 것을 발견했습니다. Qwen3-8B와 같이 비교적 작은 사고 모델조차도 최대 70B 크기의 특별히 훈련된 LLM-as-a-Judge 모델보다 성능이 70%까지 앞서는 경우도 있습니다. 그러나 모든 모델은 코딩 작업 판단에 상당한 임의성을 보였으며, 쌍별 비교 작업의 경우 응답 제시 순서만 변경해도 정확도에 상당한 영향을 미쳤습니다. 또한, 서로 다른 LLM이 작성한 코드와 단위 테스트를 판단할 때 LLM-as-a-Judge 모델의 성능이 달라지는 것도 확인되었습니다. 이러한 민감도는 코딩 시나리오에서 LLM-as-a-Judge의 신뢰성과 일관성에 대한 우려를 제기합니다. 마지막으로, LLM-as-a-Judge를 위한 최적의 프롬프팅 전략을 연구하여 쌍별 비교가 단일 점수 판정보다 성능이 우수하며, 처리되지 않은 전체 LLM 응답에서 주석과 추론을 유지하는 것이 판정 성능을 향상시킨다는 것을 발견했습니다.

시사점, 한계점

시사점:
CodeJudgeBench는 LLM-as-a-Judge 모델의 성능을 평가하기 위한 표준 벤치마크를 제공합니다.
사고 능력이 있는 LLM이 코드 평가 작업에서 더 나은 성능을 보입니다.
상대적으로 작은 모델도 큰 모델을 능가할 수 있습니다.
쌍별 비교 및 주석과 추론 정보 포함 프롬프팅 전략이 효과적임을 확인했습니다.
한계점:
모든 LLM-as-a-Judge 모델은 여전히 상당한 임의성을 보입니다.
응답 제시 순서에 따라 판단 결과가 크게 달라질 수 있습니다.
서로 다른 LLM이 생성한 코드에 대한 평가 결과에 일관성이 부족합니다.
LLM-as-a-Judge의 신뢰성과 일관성에 대한 우려가 제기됩니다.
👍