본 논문은 에이전트의 추론 및 계획 능력에 필수적인 미래 예측 모델에 대해 다룹니다. 기존의 단계별 월드 모델 전개 방식은 오차 누적 문제를 가지는 반면, 기하학적 지평선 모델(GHM)은 누적 오차 없이 미래 상태를 직접 예측합니다. 기존 GHM 학습 방법은 부트스트래핑 예측으로 인해 장기 예측 성능이 저하되는 문제가 있었는데, 본 논문에서는 확률 경로 상의 새로운 벨만 방정식과 플로우 매칭 기법을 활용한 시간 차이 플로우(TD-Flow)를 제안합니다. TD-Flow는 이전 방법보다 5배 이상 긴 지평선에서 정확한 GHM을 학습하며, 이론적으로 새로운 수렴 결과를 제시하고, 훈련 중 감소된 기울기 분산에 효과를 주로 기인합니다. 실험적으로 다양한 영역에서 생성 메트릭 및 정책 평가와 같은 다운스트림 작업에 대해 TD-Flow의 유효성을 검증하고, 사전 학습된 정책에 대한 계획을 위한 최근 행동 기반 모델과 TD-Flow를 통합하여 상당한 성능 향상을 보여줍니다.