Este artículo presenta una investigación sobre la vulnerabilidad de un modelo de inferencia que genera tokens de Cadena de Pensamiento (CoT) a ataques de jailbreak. A diferencia de los modelos de lenguaje existentes, que toman decisiones de rechazo en el límite entre la respuesta rápida y la respuesta inmediata, encontramos evidencia de que el modelo DeepSeek-R1-Distill-Llama-8B toma decisiones de rechazo dentro del proceso de generación de CoT. Identificamos una dirección lineal (dirección de atención) en el espacio de activación durante la generación de tokens CoT que predice si el modelo rechazará o aceptará. Esta dirección corresponde a un patrón de inferencia deliberada en el texto generado. Eliminar esta dirección de las activaciones del modelo aumenta la aceptación dañina, lo que permite liberar el modelo. También demostramos que el resultado final puede controlarse manipulando únicamente las activaciones de tokens CoT, y que la incorporación de esta dirección en un ataque basado en la respuesta rápida mejora la tasa de éxito. En consecuencia, nuestros hallazgos sugieren que la propia cadena de pensamientos representa un nuevo objetivo prometedor para la manipulación adversaria de modelos de inferencia.