DiMA는 단백질 언어 모델 표현을 사용하는 잠재 확산 프레임워크로, 다양한 단백질 인코더(8M~3B 파라미터)에서 일반화되는 강력한 방법론을 제시합니다. 기존의 자기회귀, 이산 확산, 흐름 일치 언어 모델과 비교하여, 여러 단백질 표현(ESM-2, ESMc, CHEAP, SaProt)과 다양한 평가 지표(품질, 다양성, 참신성, 분포 일치)를 사용한 광범위한 실험에서 일관되게 높은 성능과 참신하고 고품질의 다양한 단백질 서열을 생성하는 것을 보여줍니다. 단백질 패밀리 생성, 모티프 스캐폴딩 및 채우기, 폴드 특정 서열 설계 등 조건부 생성 작업도 지원합니다.