Sign In

Zero Reinforcement Learning Towards General Domains

Created by
  • Haebom
Category
Empty

저자

Yuyuan Zeng, Yufei Huang, Can Xu, Qingfeng Sun, Jianfeng Yan, Guanghui Xu, Tao Yang, Fengzong Lian

개요

본 논문은 사전 훈련된 모델에 검증 가능한 보상으로 강화 학습을 직접 적용하여, 지도 학습 미세 조정 없이 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 제로 강화 학습(Zero-RL) 접근 방식을 제시합니다. 기존 연구가 검증 가능한 보상 신호가 있는 분야에 집중된 점을 개선하고자, 검증 가능한 도메인과 비검증 가능한 도메인 모두에서 모델의 추론 능력을 향상시키는 새로운 제로-RL 패러다임을 제안합니다. 검증 가능한 보상과 생성적 보상 모델을 결합하여, 두 도메인에서 다중 작업 제로-RL 훈련을 수행하고, 추론 능력의 전이를 촉진합니다. 또한, 생성적 보상 모델에서의 보상 해킹을 완화하기 위해, 일반 도메인에서 보다 포괄적인 사고 토큰 생성을 장려하는 부드러운 길이 패널티를 설계합니다. Qwen3-8B-Base 및 Qwen3-14B-Base에 대한 실험 결과는 제안하는 접근 방식이 광범위한 추론을 요구하는 작업뿐만 아니라 보다 일반적인 작업에서도 우수한 추론 성능을 달성함을 보여줍니다.

시사점, 한계점

시사점:
검증 가능한 보상과 생성적 보상 모델의 결합을 통해, 검증 가능한 도메인과 비검증 가능한 도메인 모두에서 LLM의 추론 능력 향상 가능성을 제시했습니다.
다중 작업 제로-RL 훈련을 통해, 추론 능력의 전이를 가능하게 했습니다.
부드러운 길이 패널티 설계를 통해, 생성적 보상 모델의 보상 해킹 문제를 완화했습니다.
Qwen3-8B-Base 및 Qwen3-14B-Base 모델에 대한 실험을 통해, 제안하는 접근 방식의 효과를 입증했습니다.
한계점:
비검증 가능한 도메인에서 생성적 보상 모델의 정확성 및 신뢰성을 확보하는 방법에 대한 추가 연구가 필요합니다.
다양한 모델 아키텍처 및 작업에 대한 일반화 가능성을 추가적으로 검증해야 합니다.
부드러운 길이 패널티의 최적 설정에 대한 연구가 더 필요합니다.
👍