본 논문은 비지도 학습 기반의 비디오 객체 중심 학습에서 장기적인 시간적 일관성을 갖는 구성적인 표현을 추출하는 방법을 제시합니다. 기존 순환 처리 기반 접근 방식의 시간적 일관성 부족 문제를 해결하기 위해, 객체 수준의 새로운 시간적 대조 손실 함수를 도입하여 시간적 일관성을 명시적으로 강화합니다. 이를 통해 학습된 객체 중심 표현의 시간적 일관성을 크게 향상시켜, 비지도 객체 동역학 예측과 같은 어려운 하위 작업을 가능하게 하는 더욱 신뢰할 수 있는 비디오 분해를 제공합니다. 또한, 제안하는 손실 함수가 추가하는 귀납적 편향은 객체 발견 성능을 크게 향상시켜, 합성 및 실제 데이터셋 모두에서 기존 최고 성능을 능가하며, 동작 마스크와 같은 추가적인 단서를 활용하는 약지도 학습 방식보다도 우수한 결과를 보입니다.