DiMA, un marco de difusión latente que utiliza representaciones de modelos de lenguaje de proteínas, presenta una metodología robusta que se generaliza a diversos codificadores de proteínas (parámetros de 8M a 3B). En comparación con los modelos de lenguaje autorregresivos, de difusión discreta y de flujo consistente existentes, presenta un rendimiento consistentemente satisfactorio en experimentos exhaustivos con múltiples representaciones de proteínas (ESM-2, ESMc, CHEAP, SaProt) y diversas métricas de evaluación (calidad, diversidad, novedad y congruencia de distribución), generando secuencias de proteínas novedosas, de alta calidad y diversas. También admite tareas generativas condicionales, como la generación de familias de proteínas, el andamiaje y relleno de motivos, y el diseño de secuencias con pliegues específicos.