Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SciSage: A Multi-Agent Framework for High-Quality Scientific Survey Generation

Created by
  • Haebom

저자

Xiaofeng Shi, Qian Kou, Yuduo Li, Ning Tang, Jinxin Xie, Longbin Yu, Songjing Wang, Hua Zhou

개요

SciSage는 과학 문헌의 급증에 따라 자동화된 설문 조사 생성 도구의 필요성에 부응하여 개발된 다중 에이전트 프레임워크입니다. 기존의 LLM 기반 방법들의 심층 분석 부족, 구조적 일관성 결여, 신뢰할 수 없는 인용 문제를 해결하기 위해, SciSage는 reflect-when-you-write 패러다임을 채택하여 계층적 Reflector 에이전트를 통해 초안을 개요, 섹션, 문서 수준에서 비판적으로 평가하고, 쿼리 해석, 콘텐츠 검색, 개선을 위한 전문 에이전트와 협업합니다. 또한, 엄격한 최신성 및 인용 기반 품질 관리를 거친 11개 컴퓨터 과학 분야의 46편의 영향력 있는 논문(2020-2025)으로 구성된 SurveyScope 벤치마크를 공개합니다. 평가 결과, SciSage는 기존 최고 성능 모델(LLM x MapReduce-V2, AutoSurvey)을 능가하여 문서 일관성에서 +1.73점, 인용 F1 점수에서 +32% 향상을 보였습니다. 인간 평가에서는 혼재된 결과(인간 작성 설문 조사 대비 3승 7패)를 보였지만, 주제의 폭넓은 다루기와 검색 효율성에서 강점을 보였습니다. 전반적으로 SciSage는 연구 지원 작성 도구에 대한 유망한 기반을 제공합니다.

시사점, 한계점

시사점:
다중 에이전트 기반의 reflect-when-you-write 패러다임을 통해 LLM 기반 설문조사 생성의 한계점(심층 분석 부족, 구조적 일관성 결여, 신뢰할 수 없는 인용)을 개선했습니다.
기존 최고 성능 모델 대비 문서 일관성 및 인용 정확도가 향상되었습니다.
SurveyScope라는 엄격하게 관리된 벤치마크 데이터셋을 제공하여 향후 연구에 기여할 수 있습니다.
연구 지원 작성 도구 개발에 중요한 기반을 마련했습니다.
한계점:
인간 평가에서 인간 작성 설문 조사 대비 성능이 완전히 우월하지 않았습니다 (3승 7패).
인간 평가 결과가 혼재되어 SciSage의 전반적인 성능에 대한 명확한 결론을 내리기 어렵습니다.
👍