Tuning LLM Judge Design Decisions for 1/1000 of the Cost
Created by
Haebom
저자
David Salinas, Omar Swelam, Frank Hutter
개요
본 논문은 대규모 언어 모델(LLM) 평가에 있어 고비용의 인간 주석을 대체하기 위해 LLM 기반 평가자를 활용하는 방법을 제안한다. 기존 연구들의 혼란스러운 비교를 해결하기 위해, LLM 평가자의 하이퍼파라미터를 체계적으로 분석하고 조정하는 방법을 제시한다. 평가 비용을 줄이기 위해 다목적 다충실도(multi-objective multi-fidelity) 기법을 활용하여 정확도와 비용 간의 절충점을 찾는다. 결과적으로 정확도와 비용 효율성 면에서 기존 벤치마크를 능가하고, 접근성과 재현성을 높이기 위해 오픈 가중치 모델을 사용하는 평가자를 찾아낸다. 실험 재현을 위한 코드는 공개 저장소(https://github.com/geoalgo/judgetuning)에서 확인 가능하다.