본 논문은 단백질 서열 표현 학습을 위한 새로운 프레임워크를 제시합니다. 이 프레임워크는 다양체 학습과 분포 모델링을 분리하여 접근합니다. 잠재 공간 확산(Latent Space Diffusion) 아키텍처를 제안하는데, 이는 단백질 서열 오토인코더와 그 잠재 공간에서 동작하는 잡음 제거 확산 모델을 결합한 것입니다. 이를 통해 확산 모델로부터 얻은 일변수 학습 표현과 오토인코더의 잠재 표현을 모두 얻습니다. 논문에서는 동일한 유형의 아미노산이 잠재 공간에서 동일하게 분포하도록 강제하는 동종 모델과 잡음 기반 마스킹 변형을 사용하는 이종 모델이라는 두 가지 오토인코더 아키텍처를 제안하고 평가합니다. 기준 모델로는 마스크 언어 모델링으로 학습된 잠재 공간을 사용하며, 다양한 단백질 특성 예측 작업에서 판별 능력을 평가합니다. 주요 결과는 두 가지입니다. 첫째, 제안된 두 변형 모두에서 학습된 확산 모델은 마스크 언어 모델 기준 모델보다 높은 판별 능력을 보입니다. 둘째, 확산 모델 표현 중 어떤 것도 마스크 언어 모델 임베딩 자체의 성능에는 미치지 못했습니다.