본 논문은 시뮬레이터에서 생성된 합성 비디오의 사실성을 향상시키는 접근 방식을 제안합니다. 이는 제로샷 프레임워크로, 추가적인 미세 조정 없이 확산 비디오 기반 모델을 사용하여 합성 비디오의 다중 레벨 구조를 공간적 및 시간적 영역 모두에서 보존하는 데 중점을 둡니다. 특히, 시뮬레이터에서 정보를 추출하는 대신 보조 모델을 통해 깊이 맵, 의미 맵, 엣지 맵과 같은 합성 비디오에서 추정된 구조 인식 정보에 따라 생성/디노이징 프로세스를 조건화하도록 효과적인 수정을 통합합니다. 이러한 지침을 통해 향상된 비디오가 구조적 및 의미적 수준에서 원래 합성 비디오와 일관성을 유지하도록 보장합니다. 본 연구는 간단하지만 일반적이고 강력한 합성 비디오 사실성 향상 접근 방식을 제시하며, 실험에서 원래 비디오와의 구조적 일관성 측면에서 기존 기준선을 능가하고 최첨단 수준의 포토리얼리즘 품질을 유지함을 보여줍니다.