Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SurveyEval: Towards Comprehensive Evaluation of LLM-Generated Academic Surveys

Created by
  • Haebom
Category
Empty

저자

Jiahao Zhao, Shuaixing Zhang, Nan Xu, Lei Wang

개요

LLM 기반 자동 설문 시스템은 웹에서 정보를 얻는 방식을 변화시키고 있으며, 검색, 구성, 내용 합성을 종단간 생성 파이프라인에 통합한다. 본 논문은 이러한 복잡한 시스템의 평가에 대한 문제를 해결하기 위해, 자동 생성된 설문을 전반적인 품질, 개요 일관성, 참조 정확성의 세 가지 측면에서 평가하는 포괄적인 벤치마크인 SurveyEval을 소개한다. 7개 주제에 걸쳐 평가를 확장하고, 평가-인간 정렬을 강화하기 위해 인간 참조를 활용하여 LLM-as-a-Judge 프레임워크를 확장했다. 평가 결과는 일반적인 장문 텍스트 또는 논문 작성 시스템이 더 낮은 품질의 설문을 생성하는 경향이 있는 반면, 전문 설문 생성 시스템은 훨씬 더 높은 품질의 결과를 제공할 수 있음을 보여준다. SurveyEval은 다양한 주제와 평가 기준에 걸쳐 자동 설문 시스템을 이해하고 개선하기 위한 확장 가능한 테스트베드로 구상된다.

시사점, 한계점

시사점:
LLM 기반 자동 설문 시스템 평가를 위한 포괄적인 벤치마크 (SurveyEval) 제시
전반적인 품질, 개요 일관성, 참조 정확성 3가지 평가 지표 활용
7가지 주제에 대한 평가 수행
LLM-as-a-Judge 프레임워크와 인간 참조를 결합하여 평가의 인간 정렬 강화
전문 설문 생성 시스템의 높은 품질 결과 입증
한계점:
구체적인 한계점은 논문에 명시되지 않음.
👍