본 논문은 공간과 시간의 역동적인 변화를 포착하기 위해, 360도 파노라마 영상을 상호 연결된 관측, 상태, 행동 노드로 변환하는 Spatio-Temporal Road Image Dataset for Exploration (STRIDE) 데이터셋을 제시합니다. STRIDE 데이터셋을 기반으로, 공간 및 시간적 역동성을 통합한 변환기 기반 생성적 월드 모델인 TARDIS를 제안합니다. TARDIS는 제어 가능한 사실적인 이미지 합성, 지시사항 따르기, 자율적 자기 제어, 최첨단 지리 참조 등 다양한 에이전트 작업에서 강력한 성능을 보여줍니다. 이를 통해 공간 및 시간적 측면을 이해하고 조작할 수 있는 정교한 범용 에이전트 개발 가능성을 제시합니다. 데이터셋, 코드, 모델 체크포인트는 Hugging Face에서 공개됩니다.