본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 새로운 강화 학습 방법인 MOTIF(Modular Thinking via Reinforcement Finetuning)을 제안합니다. 기존의 GRPO(Group Relative Policy Optimization) 알고리즘은 추론 토큰 수 증가를 통해 응답 품질을 향상시키지만, LLM의 제한된 context size로 인해 제약이 있습니다. MOTIF는 여러 라운드에 걸쳐 추론 토큰을 생성하는 모듈형 사고 전략을 통해 context size의 제한을 극복하고자 합니다. Qwen2.5-3B-Instruct 모델을 GSM8K 데이터셋으로 파라미터 효율적인 미세 조정을 통해 학습시킨 결과, MATH500 및 AIME2024 벤치마크에서 기존 GRPO 기반 학습 대비 각각 3.8%와 3.3%의 정확도 향상을 보였으며, 이는 15%의 샘플만을 사용하여 달성한 결과로 샘플 효율성을 입증합니다. 코드와 모델은 공개적으로 제공됩니다.