DreamerV3 알고리즘의 성공을 바탕으로, 기존 RNN 기반 월드 모델을 Transformer 기반으로 대체하는 연구가 진행되었으나 성능 향상에 한계가 있었습니다. 본 논문에서는 기존의 next state prediction objective가 Transformer의 표현 능력을 충분히 활용하지 못한다는 점을 지적하고, action-conditioned Contrastive Predictive Coding을 활용하여 장기간 예측이 가능한 TWISTER (Transformer-based World model wIth contraSTivE Representations) 월드 모델을 제안합니다. TWISTER는 Atari 100k 벤치마크에서 162%의 human-normalized mean score를 달성하여 look-ahead search를 사용하지 않는 최첨단 방법들 중 새로운 기록을 세웠습니다.