본 논문은 텍스트 조건부 분자 생성을 위한 새로운 잠재 확산 모델인 LDMol을 제시합니다. 분자의 불연속적인 특성으로 인해 기존 확산 모델이 자연어와 같은 복잡한 조건과 원시 데이터를 연결하는 데 어려움을 겪는다는 점을 인지하고, 효과적인 잠재 공간 설계가 확산 모델 성능의 핵심임을 밝힙니다. 텍스트 데이터에서 분자 구조의 고유한 특징을 포함하는 새로운 특징 공간을 추출하기 위해 대조 학습 전략을 사용합니다. 실험 결과, LDMol은 텍스트-분자 생성 벤치마크에서 기존의 자기회귀 기준 모델을 능가하며, 더 나은 잠재 영역 선택을 통해 텍스트 데이터 생성에서 자기회귀 모델을 능가하는 최초의 확산 모델 중 하나임을 보여줍니다. 또한, LDMol을 분자-텍스트 검색 및 텍스트 안내 분자 편집과 같은 하위 작업에 적용하여 확산 모델로서의 다양성을 입증합니다.