본 논문은 대규모 언어 모델(LLM) 평가의 어려움을 해결하기 위해, 여러 LLM이 협력하여 테스트를 생성하고, 서로의 응답을 평가하는 '언어 모델 협의회(LMC)'를 제안합니다. 기존의 단일 LLM을 이용한 평가 방식의 한계(모델 편향, 주관성)를 극복하고자, 다수의 LLM이 민주적인 방식으로 평가에 참여하는 시스템을 구축합니다. 감정 지능 평가를 위한 사례 연구에서 20개의 LLM로 구성된 LMC를 활용하여, 개방형 질문에 대한 응답을 상호 평가하고 순위를 매겼습니다. 그 결과, LMC는 기존의 단일 LLM 평가보다 더 분리 가능하고 견고한 순위를 생성하며, 인간 평가와의 일관성 또한 높은 것으로 나타났습니다. 비용 효율성을 위해 Monte Carlo 시뮬레이션과 수동으로 선별된 하위 협의회를 이용하여 협의회 구성에 대한 연구도 진행했습니다.