본 논문은 강화 학습 미세 조정(Reinforcement Fine-Tuning, RFT)에서 사전 프롬프트 엔지니어링(Prior Prompt Engineering, pPE)의 효과를 조사합니다. 기존 RFT 연구는 주로 알고리즘, 보상 설계, 데이터 관리에 초점을 맞춘 반면, pPE, 즉 훈련 중 질의 앞에 추가되는 지침(예: 단계별 추론 유도)의 설계는 충분히 연구되지 않았습니다. 본 논문에서는 다양한 pPE 접근 방식이 RFT 후 LMs(Language Models)에 서로 다른 행동을 내재화하도록 유도할 수 있는지 조사합니다. 추론 시 프롬프트 엔지니어링(Inference-time Prompt Engineering, iPE)에서 사용되는 다섯 가지 전략(추론, 계획, 코드 기반 추론, 지식 회상, null-example 활용)을 pPE로 변환하여 Qwen2.5-7B 모델에 적용하고, AIME2024, HumanEval+, GPQA-Diamond 등의 벤치마크에서 성능을 평가합니다. 실험 결과, 모든 pPE 훈련 모델이 iPE 프롬프트 모델보다 우수한 성능을 보였으며, 특히 null-example pPE 접근 방식이 가장 큰 성능 향상을 달성하고 AIME2024 및 GPQA-Diamond에서 가장 높은 성능 향상을 보였습니다. 또한 행동 분류 프레임워크를 활용하여 서로 다른 pPE 전략이 모델에 서로 다른 행동 스타일을 심어준다는 것을 보여줍니다.