MoCA-Video는 이미지 영역의 의미적 혼합을 비디오로 확장하는 학습이 필요 없는 프레임워크입니다. 사용자가 제공한 참조 이미지의 의미적 특징을 생성된 비디오 내 특정 객체에 주입하여 원본 동작과 시각적 맥락을 유지합니다. 잠재 공간에서 객체를 탐지하고 추적하여 혼합된 객체의 공간 위치를 정밀하게 제어하기 위해 대각선 잡음 제거 일정과 클래스 비의존적 분할을 활용합니다. 시간적 일관성을 위해 모멘텀 기반 의미적 수정과 감마 잔차 잡음 안정화를 통합하여 매끄러운 프레임 전환을 구현합니다. SSIM, 이미지 수준 LPIPS, 시간적 LPIPS와 새롭게 제안된 CASS (Conceptual Alignment Shift Score) 지표를 사용하여 성능을 평가하며, 자체 제작 데이터셋을 사용하여 기존 기준 모델보다 우수한 공간 일관성, 일관된 동작 및 상당히 높은 CASS 점수를 달성합니다. 학습이나 미세 조정 없이도 제어 가능하고 고품질의 비디오 합성이 가능함을 보여줍니다.