DreamerV3 알고리즘은 순환 신경망(RNN) 기반의 정확한 세계 모델 학습을 통해 다양한 환경 도메인에서 뛰어난 성능을 달성했습니다. 모델 기반 강화 학습 알고리즘의 성공과 Transformer 아키텍처의 빠른 도입으로 인해, STORM과 같은 최근 연구에서는 RNN 기반 세계 모델을 마스크 자기 주의(masked self-attention)를 사용하는 Transformer 기반 세계 모델로 대체하는 것을 제안했습니다. 하지만 이러한 방법들의 향상된 훈련 효율성에도 불구하고, Dreamer 알고리즘에 비해 성능 향상은 제한적이며, 경쟁력 있는 Transformer 기반 세계 모델을 학습하는 데 어려움을 겪었습니다. 본 연구에서는 이전 접근 방식에서 채택된 다음 상태 예측 목표가 Transformer의 표현 능력을 완전히 활용하기에 불충분함을 보여줍니다. 본 연구는 행동 조건부 대조 예측 코딩(action-conditioned Contrastive Predictive Coding)을 사용하여 고수준 시간적 특징 표현을 학습하고 에이전트 성능을 향상시키는 세계 모델인 TWISTER (Transformer-based World model wIth contraSTivE Representations)를 제안하여 세계 모델 예측을 더 긴 시간 지평선으로 확장합니다. TWISTER는 Atari 100k 벤치마크에서 162%의 사람 정규화 평균 점수를 달성하여 선행 조사를 사용하지 않는 최첨단 방법 중 새로운 기록을 세웠습니다.