본 논문은 사전 훈련된 모델에 검증 가능한 보상으로 강화 학습을 직접 적용하여, 지도 학습 미세 조정 없이 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 제로 강화 학습(Zero-RL) 접근 방식을 제시합니다. 기존 연구가 검증 가능한 보상 신호가 있는 분야에 집중된 점을 개선하고자, 검증 가능한 도메인과 비검증 가능한 도메인 모두에서 모델의 추론 능력을 향상시키는 새로운 제로-RL 패러다임을 제안합니다. 검증 가능한 보상과 생성적 보상 모델을 결합하여, 두 도메인에서 다중 작업 제로-RL 훈련을 수행하고, 추론 능력의 전이를 촉진합니다. 또한, 생성적 보상 모델에서의 보상 해킹을 완화하기 위해, 일반 도메인에서 보다 포괄적인 사고 토큰 생성을 장려하는 부드러운 길이 패널티를 설계합니다. Qwen3-8B-Base 및 Qwen3-14B-Base에 대한 실험 결과는 제안하는 접근 방식이 광범위한 추론을 요구하는 작업뿐만 아니라 보다 일반적인 작업에서도 우수한 추론 성능을 달성함을 보여줍니다.