Daily Arxiv

This page organizes papers related to artificial intelligence published around the world.
This page is summarized using Google Gemini and is operated on a non-profit basis.
The copyright of the paper belongs to the author and the relevant institution. When sharing, simply cite the source.

DR Tulu: Reinforcement Learning with Evolving Rubrics for Deep Research

Created by
  • Haebom
Category
Empty

저자

Rulin Shao, Akari Asai, Shannon Zejiang Shen, Hamish Ivison, Varsha Kishore, Jingming Zhuo, Xinran Zhao, Molly Park, Samuel G. Finlayson, David Sontag, Tyler Murray, Sewon Min, Pradeep Dasigi, Luca Soldaini, Faeze Brahman, Wen-tau Yih, Tongshuang Wu, Luke Zettlemoyer, Yoon Kim, Hannaneh Hajishirzi, Pang Wei Koh

개요

본 논문은 장문의 잘 인용된 답변을 생성하기 위해 다단계 연구를 수행하는 딥 리서치 모델에 초점을 맞춥니다. 기존의 오픈 딥 리서치 모델은 검증 가능한 보상(RLVR)을 통해 쉽게 검증할 수 있는 단문 QA 작업에 대해 강화 학습을 사용하여 훈련되었지만, 현실적인 장문 작업에는 적용되지 않는다는 한계가 있습니다. 본 연구에서는 정책 모델과 함께 진화하는 루브릭을 구축하고 유지하는 강화 학습(RLER)을 제안합니다. 이를 통해 루브릭은 모델이 새롭게 탐구한 정보를 통합하고, 차별적이고 정책 기반의 피드백을 제공할 수 있습니다. RLER을 사용하여, 저자들은 개방형, 장문 딥 리서치를 위해 직접 훈련된 최초의 오픈 모델인 Deep Research Tulu (DR Tulu-8B)를 개발했습니다. 과학, 의료 및 일반 도메인에서 4개의 장문 딥 리서치 벤치마크에서 DR Tulu는 기존의 오픈 딥 리서치 모델을 크게 능가하며, 자체 딥 리서치 시스템과 동등하거나 더 나은 성능을 보이면서, 크기와 쿼리당 비용이 훨씬 적습니다. 연구를 용이하게 하기 위해, 저자들은 새로운 MCP 기반 에이전트 인프라를 포함한 모든 데이터, 모델 및 코드를 공개합니다.

시사점, 한계점

시사점:
RLER은 개방형, 장문 딥 리서치 모델 훈련을 위한 효과적인 방법론을 제시합니다.
DR Tulu-8B는 기존 오픈 모델을 능가하고, 자체 딥 리서치 시스템과 경쟁하는 성능을 보여줍니다.
모델, 데이터 및 코드 공개를 통해 관련 연구를 촉진합니다.
한계점:
논문의 구체적인 한계점은 제시되지 않았습니다.
(제시된 정보만으로는 DR Tulu-8B의 특정 단점이나 개선의 여지를 알 수 없습니다.)
👍