Cet article examine l'efficacité de l'ingénierie des invites préalables (pPE) dans le réglage fin du renforcement (RFT). Alors que les recherches précédentes sur le RFT se concentraient principalement sur les algorithmes, la conception des récompenses et la gestion des données, la conception du pPE (les instructions ajoutées aux requêtes pendant l'apprentissage (par exemple, le guidage d'inférence étape par étape)) a été peu étudiée. Dans cet article, nous étudions si différentes approches de pPE peuvent induire différents comportements dans les modèles de langage (ML) après le RFT. Nous convertissons cinq stratégies utilisées dans l'ingénierie des invites au temps d'inférence (iPE) (inférence, planification, raisonnement basé sur le code, rappel des connaissances et exploitation d'exemples nuls) en pPE et les appliquons au modèle Qwen2.5-7B. Nous évaluons leurs performances sur des benchmarks tels que AIME2024, HumanEval+ et GPQA-Diamond. Les résultats expérimentaux montrent que tous les modèles entraînés par PPE surpassent les modèles guidés par iPE. L'approche PPE par exemple nul obtient les gains de performance les plus importants, les plus importants étant observés sur AIME2024 et GPQA-Diamond. De plus, en utilisant un cadre de classification comportementale, nous démontrons que différentes stratégies PPE inculquent différents styles comportementaux aux modèles.