본 논문은 강화 학습 미세 조정(RFT) 환경에서 사전 프롬프트 엔지니어링(pPE)의 효과를 조사합니다. 기존 RFT 연구는 주로 알고리즘, 보상 설계, 데이터 관리에 초점을 맞춘 반면, 본 논문은 훈련 중 질의 앞에 추가되는 사전 프롬프트(단계별 추론과 같은 동작을 유도하는 지침)의 설계에 주목합니다. 다섯 가지 대표적인 추론 시 프롬프트 엔지니어링(iPE) 전략(추론, 계획, 코드 기반 추론, 지식 회상, Null 예시 활용)을 pPE 접근 방식으로 변환하여 Qwen2.5-7B 모델에 적용하고, AIME2024, HumanEval+, GPQA-Diamond 등의 벤치마크를 사용하여 성능을 평가합니다. 실험 결과, 모든 pPE 훈련 모델이 iPE 프롬프트 모델보다 우수한 성능을 보였으며, 특히 Null 예시 pPE 접근 방식이 가장 큰 성능 향상을 달성하고 AIME2024와 GPQA-Diamond에서 가장 높은 성능 향상을 보였습니다. 또한 행동 분류 프레임워크를 적용하여 서로 다른 pPE 전략이 모델에 서로 다른 행동 스타일을 부여함을 보여줍니다. 결론적으로 본 연구는 pPE가 RFT에서 강력하지만 아직 충분히 연구되지 않은 요소임을 보여줍니다.