Multimodal DeepResearcher: Generating Text-Chart Interleaved Reports From Scratch with Agentic Framework
Created by
Haebom
Category
Empty
저자
Zhaorui Yang, Bo Pan, Han Wang, Yiyao Wang, Xingyu Liu, Luoxuan Weng, Yingchaojie Feng, Haozhe Feng, Minfeng Zhu, Bo Zhang, Wei Chen
개요
본 논문은 개념 및 정보 전달에 중요한 시각화의 역할을 강조하며, LLM(Large Language Model)이 심층 연구를 수행하고 종합적인 보고서를 생성할 수 있도록 하는 최근의 발전을 기반으로 한다. 기존의 심층 연구 프레임워크가 텍스트 기반 콘텐츠 생성에 초점을 맞춘 반면, 본 논문은 텍스트와 시각화를 함께 생성하는 자동화된 접근 방식을 탐구한다. 이를 위해, LLM이 다양하고 고품질의 시각화를 학습하고 생성할 수 있도록 하는 차트의 구조적 텍스트 표현인 FDV(Formal Description of Visualization)를 제안한다. 또한, FDV를 기반으로 (1) 연구, (2) 예시 보고서 텍스트화, (3) 계획, (4) 멀티모달 보고서 생성을 포함하는 에이전트 기반 프레임워크인 Multimodal DeepResearcher를 소개한다. Multimodal DeepResearcher의 성능 평가를 위해 100개의 다양한 주제와 5가지 지표를 포함하는 MultimodalReportBench를 개발했다. 다양한 모델과 평가 방법을 사용한 실험을 통해 Multimodal DeepResearcher의 효과를 입증했으며, 특히 Claude 3.7 Sonnet 모델을 사용하여 기준 방법보다 82%의 전반적인 승률을 달성했다.
시사점, 한계점
•
시사점:
◦
LLM을 활용하여 텍스트와 시각화를 결합한 멀티모달 보고서 생성 가능성을 제시.
◦
FDV를 통해 LLM이 시각화를 학습하고 생성하는 새로운 방법론 제시.
◦
Multimodal DeepResearcher 프레임워크를 통해 멀티모달 보고서 생성 과정을 단계별로 분해하고 효율성을 높임.
◦
MultimodalReportBench를 개발하여 멀티모달 보고서의 성능 평가를 위한 체계적인 기반 마련.