Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

DR Tulu: Reinforcement Learning with Evolving Rubrics for Deep Research

Created by
  • Haebom
Category
Empty

저자

Rulin Shao, Akari Asai, Shannon Zejiang Shen, Hamish Ivison, Varsha Kishore, Jingming Zhuo, Xinran Zhao, Molly Park, Samuel G. Finlayson, David Sontag, Tyler Murray, Sewon Min, Pradeep Dasigi, Luca Soldaini, Faeze Brahman, Wen-tau Yih, Tongshuang Wu, Luke Zettlemoyer, Yoon Kim, Hannaneh Hajishirzi, Pang Wei Koh

개요

Deep research 모델은 장문의, 잘 출처가 밝혀진 답변을 생성하기 위해 다단계 연구를 수행합니다. 그러나 대부분의 공개된 딥 리서치 모델은 검증 가능한 보상(RLVR)을 사용하여 검증하기 쉬운 단문 QA 작업에 대해 강화 학습으로 훈련됩니다. 이는 현실적인 장문 작업으로 확장되지 않습니다. 우리는 진화하는 채점 기준을 사용한 강화 학습(RLER)을 통해 이를 해결하며, 여기서 훈련 동안 정책 모델과 함께 공동 진화하는 채점 기준을 구축하고 유지합니다. 이를 통해 채점 기준은 모델이 새롭게 탐구한 정보를 통합하고 차별적이고 정책 내 피드백을 제공할 수 있습니다. RLER을 사용하여, 우리는 개방형 장문 딥 리서치를 위해 직접 훈련된 최초의 개방형 모델인 Deep Research Tulu (DR Tulu-8B)를 개발합니다. 과학, 헬스케어 및 일반 분야의 4가지 장문 딥 리서치 벤치마크에서 DR Tulu는 기존의 공개 딥 리서치 모델보다 상당히 우수한 성능을 보이며, 훨씬 작고 쿼리당 비용이 저렴하면서도 독점 딥 리서치 시스템과 동등하거나 뛰어난 성능을 보입니다. 향후 연구를 용이하게 하기 위해, 우리는 딥 리서치 시스템을 위한 새로운 MCP 기반 에이전트 인프라를 포함하여 모든 데이터, 모델 및 코드를 공개합니다.

시사점, 한계점

RLER을 활용하여 개방형 장문 딥 리서치 모델의 성능을 향상시켰습니다.
DR Tulu-8B는 기존 오픈 모델보다 우수하고, 독점 시스템과 동등하거나 뛰어난 성능을 보입니다.
모델, 데이터, 코드를 공개하여 후속 연구를 촉진합니다.
RLER 방법론은 딥 리서치 모델 훈련에 대한 새로운 접근 방식을 제시합니다.
논문에서 구체적인 한계점에 대한 언급은 없음.
👍