본 논문은 시각적 강화학습에서 토큰 기반 트랜스포머 월드 모델의 시간적 불일치 문제를 해결하기 위해 '식별 가능한 토큰 대응(Identifiable Token Correspondence, ITC)'이라는 새로운 디코딩 단계를 제안합니다. ITC는 다음 프레임 예측을 이전 프레임의 토큰을 복사하거나 새로운 토큰을 생성하는 구조적 할당 문제로 재정의하여, 토큰의 지속성을 명시적으로 고려합니다. 이를 통해 기존 트랜스포머 구조나 학습 절차를 변경하지 않고도 적용 가능하며, 4가지 까다로운 벤치마크에서 최첨단 성능을 달성했습니다.