Cet article présente une méthode utilisant l'apprentissage par renforcement pour entraîner un seul vecteur de pilotage d-dimensionnel par couche, tout en conservant les pondérations de base fixes. Cette méthode atteint des performances comparables à celles d'un modèle d'inférence entièrement optimisé par RL pour une tâche de raisonnement mathématique. La paramétrisation supplémentaire ne représente qu'environ 0,0016 % du modèle à 8 milliards de paramètres, et les performances sont reproductibles sur divers modèles de base et tests de raisonnement mathématique. Ces résultats réduisent la limite supérieure du budget paramétrique requis pour l'inférence de chaînes de pensée de grande dimension, suggérant que des millions de pondérations d'adaptateur sont inutiles. L'espace d'entraînement minimal réduit la communication entre la mémoire de l'optimiseur et le GPU, diminuant ainsi le coût global du réglage fin. De plus, l'analyse logit-lens démontre que les vecteurs appris amplifient les orientations de jetons cohérentes, offrant un aperçu clair du calcul interne du modèle.