Cet article étudie comment le raisonnement adaptatif d'allocation de temps de test permet d'entraîner des modèles robustes aux vulnérabilités de sécurité, améliorant ainsi les performances des LLM dans des domaines faciles à vérifier, tels que les mathématiques et le code. Nous présentons une recette, $\textit{TARS}$ (Training Adaptive Reasoners for Safety), une approche d'apprentissage par renforcement (RL) qui entraîne les modèles à raisonner sur la sécurité à l'aide de signaux de récompense et de traces de processus de pensée équilibrant sécurité et achèvement des tâches. TARS intègre trois choix de conception importants : (1) une phase SFT « légère » de démarrage à chaud ; (2) un mélange d'invites nuisibles, inoffensives et ambiguës pour éviter les comportements de raccourci tels que le rejet excessif ; et (3) une fonction de récompense pour éviter la dégradation des capacités de raisonnement pendant l'entraînement. Les modèles entraînés avec TARS présentent un comportement adaptatif en consacrant davantage de ressources de calcul aux requêtes ambiguës, offrant ainsi un meilleur compromis entre sécurité et rejet. Ils distinguent également mieux les invites sûres et non sûres et offrent une plus grande robustesse face aux attaques en boîte blanche (par exemple, GCG) et en boîte noire (par exemple, PAIR). Globalement, cette étude fournit une solution efficace et ouverte pour entraîner les LLM à partir de requêtes jailbreakées et malveillantes grâce au raisonnement basé sur les invites.