Este artículo presenta un método que utiliza aprendizaje por refuerzo para entrenar un único vector de dirección $d$-dimensional por capa, manteniendo fijos los pesos base. Este método logra un rendimiento comparable al de un modelo de inferencia completamente ajustado por RL en una tarea de razonamiento matemático. La parametrización adicional es de tan solo alrededor del 0,0016 % del modelo de 8 mil millones de parámetros, y el rendimiento es reproducible en una variedad de modelos base y puntos de referencia de razonamiento matemático. Estos resultados reducen el límite superior del presupuesto de parámetros requerido para la inferencia de cadenas de pensamiento de alta dimensión, lo que sugiere que millones de pesos adaptadores son innecesarios. El espacio mínimo entrenable reduce la comunicación entre la memoria del optimizador y la GPU, disminuyendo así el coste total del ajuste fino. Además, el análisis logit-lens demuestra que los vectores aprendidos amplifican las orientaciones consistentes de los tokens, lo que proporciona una visión clara del cómputo interno del modelo.