[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SciSage: A Multi-Agent Framework for High-Quality Scientific Survey Generation

Created by
  • Haebom

저자

Xiaofeng Shi, Qian Kou, Yuduo Li, Ning Tang, Jinxin Xie, Longbin Yu, Songjing Wang, Hua Zhou

개요

SciSage는 과학 문헌의 급증에 따라 자동화된 설문 조사 생성 도구의 필요성에 대응하여 개발된 다중 에이전트 프레임워크입니다. LLM 기반의 기존 방법들의 심층 분석 부족, 구조적 일관성 결여, 신뢰할 수 없는 인용 등의 한계를 극복하기 위해, SciSage는 'reflect-when-you-write' 패러다임을 채택하여 계층적 Reflector 에이전트가 초록, 섹션, 문서 수준에서 초고를 비판적으로 평가하고, 질의 해석, 콘텐츠 검색, 수정을 위한 전문 에이전트와 협업하는 구조를 가지고 있습니다. 또한, 최신성과 인용 기반 품질 관리를 거친 11개 컴퓨터 과학 분야의 46편의 영향력 있는 논문(2020-2025)으로 구성된 SurveyScope 벤치마크를 공개합니다. 평가 결과, SciSage는 기존 최고 성능 모델(LLM x MapReduce-V2, AutoSurvey)을 능가하여 문서 일관성에서 +1.73점, 인용 F1 점수에서 +32% 향상을 보였습니다. 인간 평가에서는 혼합된 결과(인간 작성 설문 조사 대비 3승 7패)를 보였지만, 주제의 폭과 검색 효율성 측면에서 강점을 보였습니다. 전반적으로 SciSage는 연구 지원 집필 도구에 대한 유망한 기반을 제공합니다.

시사점, 한계점

시사점:
다중 에이전트 기반의 'reflect-when-you-write' 패러다임을 통해 LLM 기반 설문 조사 생성의 한계를 극복
문서 일관성 및 인용 정확도 향상
SurveyScope라는 엄격하게 큐레이션된 벤치마크 데이터셋 제공
연구 지원 집필 도구 개발에 대한 새로운 가능성 제시
주제의 폭과 검색 효율성에서 강점을 보임
한계점:
인간 평가에서 인간 작성 설문 조사보다 성능이 낮은 경우가 더 많음 (3승 7패)
절대적인 성능 향상 수치보다는 상대적인 비교에 집중된 평가 결과
👍