본 논문은 이미지 및 비디오 합성에서 전례 없는 사실성을 가능하게 한 확산 모델의 성공에 착안하여, 시각적 이해 작업을 위한 확산 모델의 표현 능력을 연구합니다. 이미지 생성에 대한 연구는 활발하지만, 비디오 확산 모델의 시각적 이해 능력은 아직 미개척 분야입니다. 따라서 본 연구는 비디오 및 이미지 생성을 위해 훈련된 동일한 모델 아키텍처를 체계적으로 비교하여, 이미지 분류, 동작 인식, 깊이 추정 및 추적과 같은 다양한 하위 작업에서 잠재 표현의 성능을 분석합니다. 비디오 확산 모델이 이미지 확산 모델보다 일관되게 우수한 성능을 보이지만, 그 우수성의 정도에는 상당한 차이가 있음을 발견하였습니다. 또한, 다양한 레이어에서 추출된 특징, 다양한 노이즈 수준, 모델 크기 및 훈련 비용이 표현 및 생성 품질에 미치는 영향을 분석합니다. 이 연구는 시각적 이해를 위한 비디오 및 이미지 확산 목표를 직접 비교한 최초의 연구이며, 표현 학습에서 시간 정보의 역할에 대한 통찰력을 제공합니다.