LLM 기반 자동 설문 시스템은 웹에서 정보를 얻는 방식을 변화시키고 있으며, 검색, 구성, 내용 합성을 종단간 생성 파이프라인에 통합한다. 본 논문은 이러한 복잡한 시스템의 평가에 대한 문제를 해결하기 위해, 자동 생성된 설문을 전반적인 품질, 개요 일관성, 참조 정확성의 세 가지 측면에서 평가하는 포괄적인 벤치마크인 SurveyEval을 소개한다. 7개 주제에 걸쳐 평가를 확장하고, 평가-인간 정렬을 강화하기 위해 인간 참조를 활용하여 LLM-as-a-Judge 프레임워크를 확장했다. 평가 결과는 일반적인 장문 텍스트 또는 논문 작성 시스템이 더 낮은 품질의 설문을 생성하는 경향이 있는 반면, 전문 설문 생성 시스템은 훨씬 더 높은 품질의 결과를 제공할 수 있음을 보여준다. SurveyEval은 다양한 주제와 평가 기준에 걸쳐 자동 설문 시스템을 이해하고 개선하기 위한 확장 가능한 테스트베드로 구상된다.