본 논문은 대규모 언어 모델(LLM)을 이용한 성능 평가의 효율성을 높이기 위해, 기존 연구의 한계점인 인간 평가자의 편향과 실수, 그리고 다수의 LLM 응답 중 적절한 응답 선택 문제를 해결하는 세 단계 메타 판정자 선택 파이프라인을 제안합니다. GPT-4와 인간 전문가를 활용하여 포괄적인 평가 기준을 개발하고, 세 개의 고급 LLM 에이전트를 사용하여 판정 점수를 매기며, 임계값을 적용하여 낮은 점수의 판정을 걸러내는 방식입니다. JudgeBench 데이터셋을 이용한 실험 결과, 기존 단일 LLM 기반 방법 대비 약 8.37%, 원시 판정 대비 약 15.55% 향상된 성능을 보였습니다. 이는 LLM을 메타 판정자로 활용하는 잠재력을 보여주며, LLM 기반 강화 학습을 위한 선호도 데이터셋 구축 연구의 기반을 마련합니다.