본 논문은 대규모 언어 모델(LLM) 평가에 있어 고비용의 인간 주석을 대체하기 위해 LLM 기반 판정 모델을 활용하는 방법을 제안합니다. 기존 연구들의 모델, 프롬프트, 하이퍼파라미터 등의 동시 변화로 인한 비교 어려움을 해결하고자, LLM 판정 모델의 하이퍼파라미터를 체계적으로 분석하고 조정하는 방법을 제시합니다. 판정 모델 평가의 높은 비용을 줄이기 위해 다목적 다충실도(multi-objective multi-fidelity) 기법을 활용하여 정확도와 비용 간의 절충을 통해 효율적인 판정 모델을 찾는 방법을 제안합니다. 제안된 방법은 기존 벤치마크보다 정확도와 비용 효율성이 높고, 오픈 가중치 모델을 사용하여 접근성과 재현성을 높인 판정 모델을 찾습니다.