Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

DeepResearcher: Scaling Deep Research via Reinforcement Learning in Real-world Environments

Created by
  • Haebom

저자

Yuxiang Zheng, Dayuan Fu, Xiangkun Hu, Xiaojie Cai, Lyumanshan Ye, Pengrui Lu, Pengfei Liu

개요

본 논문에서는 웹 검색 기능을 갖춘 대규모 언어 모델(LLM) 기반 심층 연구 에이전트를 위한 최초의 종단간 훈련 프레임워크인 DeepResearcher를 소개합니다. 기존의 프롬프트 엔지니어링 기반 접근 방식이나 제한된 검색 증강 생성(RAG) 환경 내 강화 학습 기반 접근 방식과 달리, DeepResearcher는 실제 웹 검색 상호작용을 통해 대규모 강화 학습(RL)을 수행하여 종단간 훈련을 진행합니다. 다양한 웹페이지 구조에서 관련 정보를 추출하는 다중 에이전트 아키텍처를 구현하여 오픈 웹의 불확실하고, 비구조적이며, 동적인 특성을 탐색하도록 에이전트를 훈련합니다. 실험 결과, DeepResearcher는 프롬프트 엔지니어링 기반 기준 모델보다 최대 28.9점, RAG 기반 RL 에이전트보다 최대 7.2점 향상된 성능을 보였습니다. 정성적 분석을 통해 계획 수립, 다중 소스 정보 교차 검증, 연구 방향 전환을 위한 자기 반성, 명확한 답변을 찾을 수 없을 때 정직성 유지 등의 새로운 인지 행동이 나타나는 것을 확인했습니다. 본 연구는 실제 웹 환경에서의 종단간 훈련이 단순한 구현 세부 사항이 아니라 실제 응용 프로그램과 일치하는 강력한 연구 기능을 개발하기 위한 기본 요구 사항임을 강조합니다. DeepResearcher는 https://github.com/GAIR-NLP/DeepResearcher 에서 공개됩니다.

시사점, 한계점

시사점:
실제 웹 환경에서의 종단간 강화 학습을 통해 LLM 기반 심층 연구 에이전트의 성능을 크게 향상시킬 수 있음을 보여줌.
프롬프트 엔지니어링 및 RAG 기반 접근 방식보다 우수한 성능을 달성.
계획 수립, 정보 교차 검증, 자기 반성 등의 새로운 인지 행동이 출현함을 확인.
실제 응용 프로그램에 적용 가능한 강력한 연구 기능 개발에 대한 중요한 통찰력 제공.
오픈 소스로 공개되어 다른 연구자들의 활용 및 발전 가능.
한계점:
실제 웹 환경의 복잡성으로 인한 훈련의 어려움 및 비용.
다중 에이전트 아키텍처의 복잡성으로 인한 관리 및 유지보수의 어려움.
훈련 데이터의 편향성으로 인한 성능 저하 가능성.
윤리적 문제(가짜 정보 생성, 저작권 침해 등)에 대한 고려 필요.
특정 연구 분야에 대한 성능 평가만 진행되어 일반화 가능성에 대한 추가 연구 필요.
👍