본 논문은 동적 비디오 예측을 위해 객체 중심 운동학(Object Kinematics)을 활용하는 새로운 모델인 OCK를 제안합니다. 기존의 객체 중심 트랜스포머 모델들이 주로 객체의 외형에 집중하는 반면, OCK는 객체의 크기, 모양, 색상과 같은 외형 정보뿐만 아니라 위치, 속도, 가속도와 같은 운동 정보를 명시적으로 모델링합니다. 이는 객체 간의 동적인 상호작용을 모델링하고 복잡한 환경에서 시간적 일관성을 유지하는 데 중요합니다. OCK는 객체 슬롯과 통합된 객체 운동학 컴포넌트를 도입하여 장시간 비디오 시퀀스에 걸쳐 복잡한 객체 상호작용의 시공간적 예측을 가능하게 합니다. 복잡한 객체 속성과 운동을 포함하는 장면에서 우수한 성능을 보이며, 시각 관련 역동적인 학습 작업에 적용 가능성을 보여줍니다.