본 논문은 효율적인 확률적 Transformer 기반 월드 모델(STORM) 구조를 기반으로, 기존의 MLP prior를 Masked Generative Prior(예: MaskGIT Prior)로 대체한 GIT-STORM 모델을 제안합니다. 이는 환경 역학을 예측하는 월드 모델을 사용하는 모델 기반 강화학습(RL) 접근 방식을 개선하기 위한 것으로, 특히 Masked Generative Modeling의 효율성과 우수한 유도적 편향을 활용하여 샘플 효율성을 향상시킵니다. Atari 100k 벤치마크에서 RL 작업의 성능 향상을 보였으며, 최초로 Transformer 기반 월드 모델을 연속 행동 환경(DeepMind Control Suite)에 적용하여, 상태 믹서 함수를 통해 잠재 상태 표현과 행동을 통합함으로써 연속 제어 작업을 처리하는 방법을 제시합니다. 실험 결과는 MaskGIT 역학 prior의 다양성과 효능을 강조하며, 보다 정확한 월드 모델과 효과적인 RL 정책으로 이어질 가능성을 보여줍니다.
시사점, 한계점
•
시사점:
◦
Masked Generative Prior (MaskGIT Prior)를 활용하여 STORM 모델의 성능을 향상시켰으며, Atari 100k 벤치마크에서 성능 향상을 입증했습니다.
◦
Transformer 기반 월드 모델을 연속 행동 환경에 최초로 적용하여 새로운 가능성을 제시했습니다.