Este artículo presenta un método para mejorar la robustez de las redes neuronales profundas, especialmente en aplicaciones de seguridad crítica. Las técnicas de suavizado aleatorio existentes garantizan la robustez frente a perturbaciones adversarias, pero son vulnerables a grandes perturbaciones y presentan altos costos computacionales. Para abordar esto, este artículo replantea la tarea de modelado generativo en suavizado aleatorio utilizando un modelo de difusión como una tarea discriminativa en el espacio de píxeles. Al alinear puntos temporalmente adyacentes mediante discriminación de instancias en el espacio latente, obtenemos representaciones consistentes a lo largo de la trayectoria de difusión. Tras el ajuste fino basado en la representación aprendida, realizamos la eliminación de ruido y la clasificación implícitas mediante una única predicción, lo que reduce significativamente el costo de inferencia. Mediante experimentos con diversos conjuntos de datos, demostramos que se logra un rendimiento de vanguardia con un costo computacional mínimo. Por ejemplo, en ImageNet, mejoramos la precisión certificada en un promedio del 5,3 % y hasta un 11,6 % en todos los radios de perturbación, en comparación con los métodos existentes basados en difusión, a la vez que reducimos el costo de inferencia en un promedio de 85 veces.