Los modelos de inferencia a gran escala (LRM) entrenados mediante aprendizaje por refuerzo demuestran capacidades avanzadas de inferencia, pero son vulnerables a amenazas de seguridad. En particular, son vulnerables a ataques adversarios, como ataques de puerta trasera de avisos, durante el proceso de generación de Cadena de Pensamiento (CoT). Los ataques CoT (CoTA) explotan la controlabilidad de los avisos para degradar la seguridad y el rendimiento operativo de CoT. Este artículo propone la Pureza de Pensamiento (TP), un marco de defensa para las vulnerabilidades de CoTA. La TP refuerza la resistencia al contenido malicioso y mantiene la eficiencia operativa mediante tres componentes: un flujo de procesamiento de datos optimizado para la seguridad, restricciones de reglas basadas en aprendizaje por refuerzo y métricas de monitorización adaptativas.