본 논문은 텍스트 기반의 3차원 컴퓨터 단층촬영(CT) 이미지 생성을 위한 새로운 아키텍처를 제시합니다. 기존 2차원 의료 이미지 생성 모델의 한계를 극복하고자, 3차원 CT 이미지의 고차원성 및 해부학적 복잡성을 고려하여, 잠재 확산 모델과 3차원 대조적 시각-언어 사전 학습 방식을 결합했습니다. CLIP 스타일의 이중 인코더 모델을 이용하여 CT 볼륨과 방사선 보고서 간의 공유 임베딩 공간을 구축하고, 이를 생성 과정의 조건으로 활용합니다. 사전 학습된 볼륨 VAE를 통해 CT 볼륨을 저차원 잠재 공간으로 압축하여 효율적인 3차원 잡음 제거 확산을 가능하게 합니다. CT-RATE 데이터셋을 사용하여 이미지 충실도, 임상적 관련성, 의미적 정합성을 평가한 결과, 기존 방식보다 우수한 성능을 보였으며, 생성된 CT 스캔이 실제 데이터 증강에 효과적으로 활용될 수 있음을 보여주었습니다. 결론적으로, 모달리티 특화 시각-언어 정합이 고품질 3차원 의료 이미지 생성의 핵심 요소임을 확인하였으며, 대조적 사전 학습과 볼륨 확산을 통합하여 임상적으로 의미 있는 CT 볼륨을 텍스트로부터 생성하는 확장 가능하고 제어 가능한 솔루션을 제공합니다.