본 논문은 강화 학습 미세 조정(RFT)을 통해 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 방법을 연구합니다. RFT의 효과가 모델마다 크게 달라지는 현상을 분석하여, 효과적인 RFT를 위한 두 가지 중요 조건, 즉 RL-정보적 전개 정확도와 강한 데이터 상호 영향을 제시합니다. 이러한 통찰을 바탕으로, 사전 RL 학습 데이터에 탐색적 및 활용적 행동을 추가하는 작업과 무관한 데이터 증강 기법인 행동 주입(behavior injection)을 제안합니다. 실험 결과, 제안된 방법이 여러 기본 모델과 두 가지 추론 벤치마크에서 RFT 이후 성능 향상을 크게 증가시키는 것을 보여줍니다.