Omni-Thinker: Scaling Multi-Task RL in LLMs with Hybrid Reward and Task Scheduling
Created by
Haebom
저자
Derek Li, Jiaming Zhou, Leo Maxime Brunswic, Abbas Ghaddar, Qianyi Sun, Liheng Ma, Yu Luo, Dong Li, Mark Coates, Jianye Hao, Yingxue Zhang
Omni-Thinker: BWT-Aware Scheduling and Hybrid Supervision for Scaling RL-Based Post-Training toward General-Purpose LLMs
개요
본 논문은 구조적 추론과 개방형 생성을 모두 처리할 수 있는 대규모 언어 모델(LLM)을 개발하기 위한 연구를 제시한다. Omni-Thinker는 하이브리드 보상과 역전송 가이드 스케줄링을 결합하여 다양한 작업에 걸쳐 LLM을 확장하는 통합 강화 학습(RL) 프레임워크이다. 하이브리드 보상은 규칙 기반의 검증 가능한 신호와 LLM-as-a-Judge의 선호도 기반 평가를 통합하여 결정론적 및 주관적 영역 모두에서 학습을 가능하게 한다. 스케줄러는 정확도 역전송(BWT)에 따라 작업을 정렬하여 망각을 줄이고 다중 작업 성능을 향상시킨다. 4개의 도메인에서 실험을 수행한 결과, 공동 훈련보다 6.2%, 모델 병합보다 12.4%의 향상을 보였다. 또한, 정확도 전송에 대한 간단한 가정이 커리큘럼 결과에 대한 정확한 예측을 제공하며, 엔트로피 역학은 생성적 작업으로 인한 편차를 설명한다는 것을 입증했다.