본 논문은 영상 생성 모델이 3D 공간 정보를 얼마나 잘 이해하는지, 구체적으로 구조-운동(SfM) 작업을 통해 카메라 자세 추정 성능을 평가하여 조사합니다. OpenSora를 사용한 초기 실험에서는 영상 생성과 카메라 자세 추정 간의 상관관계가 약하게 나타났는데, 이는 생성된 영상 프레임이 실제 3D 공간적으로 일관되지 않기 때문임을 밝혔습니다. 이에 따라, 광도 기반 생성 및 3D 인식 오차를 활용하여 두 작업을 공동으로 학습하는 방법을 제안합니다. 최첨단 영상 생성 및 카메라 자세 추정 네트워크(DUSt3R)의 공통 구조를 활용하여 두 작업을 통합한 새로운 모델 \nameMethod를 제시하며, 이 모델은 3D 일관성 있는 사실적인 영상을 생성하는 동시에 경쟁력 있는 카메라 자세 추정 성능을 보여줍니다. 요약하자면, 본 논문은 최초로 3D 일관성 있는 사실적인 영상을 생성하고 다른 3D 인식 작업에도 활용 가능한 통합 영상 생성 모델을 제안합니다.