본 논문은 기존의 텍스트-이미지 생성 모델, 안정적 확산(Stable Diffusion) 모델, 그리고 깊이 추정 알고리즘을 결합하여 텍스트로부터 입체적인 가상현실(VR) 비디오를 생성하는 새로운 방법을 제안합니다. 텍스트 입력을 기반으로 먼저 기본적인 이미지를 생성하고, 이를 안정적 확산 모델을 통해 고품질의 이미지 프레임으로 개선합니다. 이후 깊이 추정 알고리즘을 이용하여 좌우 눈 영상을 생성하고 이를 합쳐 입체적인 VR 비디오를 만듭니다. Frechet Inception Distance와 CLIP Score를 이용하여 생성된 프레임의 화질을 정량적으로 평가합니다. 이는 VR 제작 과정에서 소요되는 많은 시간과 노력을 줄일 수 있는 잠재력을 가지고 있습니다.