텍스트 조건 확산 모델은 고품질 비디오 생성을 위한 강력한 도구로 부상했습니다. 하지만 사용자가 객체 궤적과 같은 움직임 요소를 제어하는 대화형 비디오 생성(IVG)을 가능하게 하는 것은 여전히 어려운 과제입니다. 최근의 학습 없는 접근 방식에서는 어텐션 마스크를 도입하여 궤적을 안내하지만, 이는 종종 지각 품질을 저하시킵니다. 본 논문에서는 이러한 방법의 두 가지 주요 실패 모드를 모두 도메인 이동 문제로 해석하고, 도메인 적응에서 영감을 받은 해결책을 제안합니다. 첫째, 지각 품질 저하를 사전 학습된 모델이 마스크된 어텐션을 처리하도록 훈련되지 않았기 때문에 어텐션 마스크에 의해 유발된 내부 공변량 이동으로 설명합니다. 이를 해결하기 위해 분포 매칭을 통해 이러한 이동을 완화하도록 설계된 마스크 정규화라는 사전 정규화 계층을 제안합니다. 둘째, 임의로 샘플링된 초기 노이즈가 IVG 조건과 일치하지 않는 초기화 간격을 해결하기 위해 각 잡음 제거 단계에서 시공간 일관성을 강화하는 시간적 내재 확산 사전을 도입합니다. 광범위한 정성적 및 정량적 평가는 마스크 정규화와 시간적 내재적 잡음 제거가 기존 최첨단 IVG 기술에 비해 지각 품질과 궤적 제어를 모두 향상시킨다는 것을 보여줍니다.