Este artículo investiga la eficacia de la ingeniería de indicaciones previas (pPE) en el ajuste fino de refuerzo (RFT). Si bien la investigación previa sobre RFT se ha centrado principalmente en algoritmos, diseño de recompensas y gestión de datos, el diseño de pPE (las instrucciones que se anteponen a las consultas durante el entrenamiento [p. ej., guía de inferencia paso a paso]) ha sido poco estudiado. En este artículo, investigamos si diversos enfoques de pPE pueden inducir diferentes comportamientos en los modelos de lenguaje (LM) tras el RFT. Convertimos cinco estrategias utilizadas en la ingeniería de indicaciones en tiempo de inferencia (iPE) (inferencia, planificación, razonamiento basado en código, recuperación de conocimiento y explotación de ejemplos nulos) en pPE y las aplicamos al modelo Qwen2.5-7B. Evaluamos su rendimiento en pruebas de referencia como AIME2024, HumanEval+ y GPQA-Diamond. Los resultados experimentales muestran que todos los modelos entrenados con PPE superan a los modelos impulsados por iPE, siendo el enfoque de PPE de ejemplo nulo el que logra las mayores mejoras de rendimiento, observándose las mayores mejoras en AIME2024 y GPQA-Diamond. Además, utilizando un marco de clasificación conductual, demostramos que diferentes estrategias de PPE inculcan diferentes estilos de comportamiento en los modelos.