DeepResearcher: Scaling Deep Research via Reinforcement Learning in Real-world Environments
Created by
Haebom
저자
Yuxiang Zheng, Dayuan Fu, Xiangkun Hu, Xiaojie Cai, Lyumanshan Ye, Pengrui Lu, Pengfei Liu
개요
본 논문은 웹 검색 기능을 갖춘 대규모 언어 모델(LLM) 기반 심층 연구 에이전트를 위한 최초의 종단 간 훈련 프레임워크인 DeepResearcher를 소개합니다. 기존의 프롬프트 엔지니어링 기반 접근 방식이나 제한된 환경 내 강화 학습 기반 RAG(Retrieval-Augmented Generation) 접근 방식과 달리, DeepResearcher는 실제 웹 검색 상호 작용을 통해 대규모 강화 학습을 수행하여 종단 간 훈련을 진행합니다. 여러 에이전트로 구성된 아키텍처를 통해 다양한 웹페이지 구조에서 관련 정보를 추출하고, 실제 웹 환경의 불확실성과 동적인 특성을 극복합니다. 개방형 도메인 연구 과제에 대한 실험 결과, DeepResearcher는 프롬프트 엔지니어링 기반 기준 모델보다 최대 28.9점, RAG 기반 강화 학습 에이전트보다 최대 7.2점 향상된 성능을 보였습니다. 정성적 분석을 통해 계획 수립, 다중 정보원 교차 검증, 연구 방향 전환을 위한 자기 성찰, 확실한 답변을 찾지 못할 경우 정직성 유지 등의 새로운 인지 행동이 나타나는 것을 확인했습니다. 본 연구는 실제 웹 환경에서의 종단 간 훈련이 단순한 구현 문제가 아니라 강력한 연구 능력을 개발하는 데 필수적임을 강조합니다. DeepResearcher는 https://github.com/GAIR-NLP/DeepResearcher 에서 공개됩니다.