본 논문은 대규모 언어 모델(LLM)의 출력 평가, 특히 개방적이고 복잡한 작업에서의 평가가 중요한 병목 현상이 되고 있음을 다룬다. 인간 평가의 대안으로 AI 에이전트를 평가자로 활용하는 "agent-as-a-judge"라는 새로운 패러다임이 등장하고 있으며, 이는 LLM의 추론 및 관점 수용 능력을 활용하여 다른 모델의 품질과 안전성을 평가하는 방식이다. 본 논문에서는 이 개념을 정의하고, 단일 모델 판사에서 동적인 다중 에이전트 토론 프레임워크로의 진화 과정을 추적하며, 장단점을 비판적으로 검토한다. 신뢰성, 비용, 인간 정렬을 기준으로 다양한 접근 방식을 비교하고, 의료, 법률, 금융, 교육 등 다양한 분야에서의 실제 배포 사례를 조사한다. 마지막으로, 편향, 강건성, 메타 평가를 포함한 시급한 과제를 강조하고 미래 연구 방향을 제시한다. 에이전트 기반 판단이 인간 감독을 보완할 수 있지만 대체할 수는 없다는 점을 보여주며, 차세대 LLM을 위한 신뢰할 수 있고 확장 가능한 평가를 향한 한 걸음을 제시한다.