본 논문은 다양한 기반 모델(Llama3-8B, Mistral-7B/24B, DeepSeek-Math-7B, Qwen2.5 시리즈 등 10개)에서 제로 RL 훈련을 통해 장쇄 사고(CoT) 추론을 향상시키는 연구를 다룬다. 기존 연구들이 주로 Qwen2.5 모델에 집중한 것과 달리, 다양한 모델을 사용하여 제로 RL 훈련의 일반화 가능성을 검증하고, 포맷 보상 조정 및 질의 난이도 제어 등의 전략을 통해 추론 정확도와 응답 길이를 향상시켰다. 훈련 과정에서 모델 간 상이한 패턴을 관찰하였으며, 특히 소규모 Qwen 계열이 아닌 모델에서 처음으로 'aha moment'(검증 과정)를 확인하였다. 코드, 모델, 분석 도구를 공개하여 후속 연구를 지원한다.