본 논문은 대규모 언어 모델(LLM)을 평가자로 활용하는 연구의 일환으로, 신뢰할 수 있고 확장 가능한 평가 파이프라인 구축을 위해 LLM의 성능을 비교 분석하는 ScalingEval 벤치마크 연구를 제시한다. GPT, Gemini, Claude, Llama 등 36개의 LLM을 다양한 제품 카테고리에 걸쳐 합의 기반 평가 프로토콜을 사용하여 비교했으며, 다중 에이전트 프레임워크를 통해 패턴 감사와 문제 코드를 집계하여 사람이 직접 주석을 달지 않고도 LLM 평가자를 재현 가능하게 비교할 수 있도록 했다. 대규모 보완 상품 추천에 적용한 결과, Anthropic Claude 3.5 Sonnet이 가장 높은 결정 신뢰도를 보였고, Gemini 1.5 Pro가 전반적인 성능에서 가장 우수했으며, GPT-4o가 가장 유리한 지연 시간-정확도-비용 균형을 제공했고, GPT-OSS 20B가 오픈 소스 모델 중 선두를 차지했다.