본 논문은 대규모 언어 모델(LLM) 기반 애플리케이션 평가를 위한 새로운 다중 에이전트 시스템을 제안합니다. 기존의 LLM 평가 방법들이 도메인 특화 지식 부족, 편향, 환각 등의 문제와 다양한 텍스트 스타일 적응의 어려움, 그리고 인간 판단과의 낮은 상관관계를 갖는다는 한계를 지적하며, 이를 해결하기 위해 다양한 자연어 생성 애플리케이션에 맞춰 개인화된 LLM 판정관을 자동으로 설계하는 시스템을 제시합니다. 이 시스템은 평가 프롬프트를 반복적으로 개선하고, 하위 작업의 적응 요구 사항과 인간 인식과의 조화 사이의 균형을 맞춥니다. 실험 결과, 제안된 다중 에이전트 LLM 판정관 프레임워크는 기존 방법보다 평가 정확도를 높이고 인간 인식과 더 잘 일치하는 평가 점수를 생성함을 보여줍니다.