강화 학습(RL)은 대규모 언어 모델(LLM)에서 강력한 추론 능력을 이끌어낼 수 있지만, 대부분의 공개적인 노력은 수학 및 코드에 집중되어 있습니다. 본 논문에서는 수학과 같은 사전 훈련에 부합하는 도메인에서 먼저 추론 기술을 이끌어낸 다음, 공동 RL을 통해 이러한 기술을 다른 도메인으로 적응시키고 개선하는 간단한 2단계 커리큘럼인 Reasoning Curriculum을 제안합니다. 1단계에서는 검증 가능한 보상을 통해 짧은 콜드 스타트 후 수학 전용 RL을 수행하여 추론 기술을 개발합니다. 2단계에서는 혼합 도메인 데이터에 대한 공동 RL을 실행하여 이러한 기술을 이전하고 통합합니다. 이 커리큘럼은 최소한의 요건을 가지며 백본에 구애받지 않으며, 표준 검증 가능성 검사 외에는 특수한 보상 모델이 필요하지 않습니다. Qwen3-4B 및 Llama-3.1-8B에 대한 다중 도메인 스위트에서 평가한 결과, Reasoning Curriculum은 일관된 성능 향상을 보였습니다. 제거 실험과 인지 기술 분석을 통해 두 단계 모두 필요하며, 수학 우선 유도가 복잡한 문제를 해결하는 데 중요한 인지 행동을 증가시킨다는 것을 알 수 있습니다. Reasoning Curriculum은 일반적인 추론을 위한 간결하고 쉽게 적용할 수 있는 방법을 제공합니다.