본 논문은 컴퓨터 비전 분야에서 시각적으로 유사한 객체를 움직임으로 구별하는 문제를 해결하기 위해, 사전 훈련된 비디오 확산 모델을 활용하는 새로운 자기 지도 학습 기반 트래커를 제안한다. 기존의 자기 지도 학습 트래커가 시각적 단서가 모호할 때 성능이 저하되는 한계를 극복하고자, 논문은 확산 모델의 디노이징 과정에서 초기에 움직임 정보가 분리되어 학습된다는 점에 주목했다. 제안하는 트래커는 기존의 방법론보다 시각적으로 유사한 객체 추적에 특화된 벤치마크에서 상당한 성능 향상을 보였으며, 시각화를 통해 뷰포인트 변화와 변형에도 강건한 추적 성능을 입증했다.