DiMA, un framework de diffusion latente utilisant des représentations de modèles de langage protéique, présente une méthodologie robuste et généralisable à divers encodeurs protéiques (paramètres 8M à 3B). Comparé aux modèles de langage autorégressifs, de diffusion discrète et de flux cohérent existants, il affiche de bons résultats lors d'expériences approfondies utilisant plusieurs représentations protéiques (ESM-2, ESMc, CHEAP, SaProt) et divers paramètres d'évaluation (qualité, diversité, nouveauté et congruence de distribution), générant ainsi des séquences protéiques nouvelles, de haute qualité et diversifiées. Il prend également en charge des tâches génératives conditionnelles, telles que la génération de familles de protéines, l'échafaudage et le remplissage de motifs, et la conception de séquences spécifiques à chaque repliement.