본 논문은 시각-언어 모델의 물리 시뮬레이션 성능 향상 및 해석을 위해 인지 기반의 새로운 방법인 "Chain of Time"을 제안합니다. 이 방법은 시뮬레이션 동안 일련의 중간 이미지를 생성하며, 이는 기계 학습의 맥락적 추론과 인간의 정신 시뮬레이션에서 영감을 받았습니다. Chain of Time은 추론 시간에 사용되며 추가적인 미세 조정을 필요로 하지 않습니다. 2차원 그래픽 시뮬레이션 및 실제 3차원 비디오를 포함한 합성 및 실제 세계 도메인에 적용하여 속도, 가속도, 유체 역학 및 운동량 보존과 같은 다양한 물리적 특성을 테스트했습니다. Chain of Time 시뮬레이션을 사용한 결과, 최첨단 이미지 생성 모델의 성능이 크게 향상되었습니다. 또한, 각 시간 단계에서 이미지 모델이 시뮬레이션한 특정 세계 상태를 분석하여 역학적 이해를 도왔습니다.