Este artículo aborda el problema de que los sistemas de IA a veces exhiben comportamientos dañinos no deseados a pesar de los exhaustivos diagnósticos y depuraciones realizados por los desarrolladores. Detectar y solucionar estos problemas es una tarea compleja, ya que es difícil detectar por completo las entradas que pueden inducir comportamientos dañinos. El redteaming y el entrenamiento adversarial (AT) se utilizan comúnmente para mejorar la robustez, pero empíricamente tienen dificultades para corregir modos de fallo diferentes a los ataques utilizados durante el entrenamiento. En este artículo, utilizamos el entrenamiento adversarial latente (LAT) para defendernos de las vulnerabilidades sin explotar las entradas que inducen comportamientos dañinos ni el conocimiento sobre dichos comportamientos. LAT utiliza una representación latente comprimida, abstracta y estructurada de conceptos que la red utiliza realmente para la predicción. Esto nos permite defendernos de los modos de fallo sin ejemplos que induzcan comportamientos dañinos. En particular, utilizamos LAT para eliminar puertas traseras y defendernos de una clase de ataques adversariales retenidos. En tareas de clasificación de imágenes, clasificación de texto y generación de texto, demostramos que LAT mejora tanto la robustez frente a nuevos ataques como el rendimiento con datos limpios en comparación con AT. Esto sugiere que LAT podría ser una herramienta prometedora para defenderse contra modos de falla que no son identificados explícitamente por los desarrolladores.