본 논문은 텍스트로 조건을 부여하여 분자를 생성하는 연구를 수행하며, 특히 자연어 설명을 화학 구조로 변환하는 것을 목표로 한다. 잠재 확산 모델(LDMs)을 기반으로, 전체 프롬프트를 한 번에 인코딩하는 기존 방식의 한계를 지적하고, 이를 해결하기 위해 Chain-of-Generation (CoG)라는 훈련이 필요 없는 다단계 잠재 확산 프레임워크를 제안한다. CoG는 프롬프트를 의미론적 세그먼트로 분해하여 단계적으로 통합함으로써, 점점 더 풍부한 언어적 제약 조건을 만족하는 분자를 생성하도록 유도한다. 또한, 텍스트와 분자 잠재 공간 간의 대응 관계를 강화하기 위한 사후 정렬 학습 단계를 도입했다. 실험을 통해 CoG가 기존 방식보다 더 높은 의미적 정렬, 다양성, 제어 가능성을 보이며, 복잡한 프롬프트를 충실히 반영하는 분자를 생성하고 생성 과정을 투명하게 보여주는 것을 입증했다.