Sign In

Learning Transformer-based World Models with Contrastive Predictive Coding

Created by
  • Haebom
Category
Empty

저자

Maxime Burchi, Radu Timofte

개요

DreamerV3 알고리즘은 순환 신경망(RNN) 기반의 정확한 세계 모델 학습을 통해 다양한 환경 도메인에서 뛰어난 성능을 달성했습니다. 모델 기반 강화 학습 알고리즘의 성공과 Transformer 아키텍처의 빠른 도입으로 인해, STORM과 같은 최근 연구에서는 RNN 기반 세계 모델을 마스크 자기 주의(masked self-attention)를 사용하는 Transformer 기반 세계 모델로 대체하는 것을 제안했습니다. 하지만 이러한 방법들의 향상된 훈련 효율성에도 불구하고, Dreamer 알고리즘에 비해 성능 향상은 제한적이며, 경쟁력 있는 Transformer 기반 세계 모델을 학습하는 데 어려움을 겪었습니다. 본 연구에서는 이전 접근 방식에서 채택된 다음 상태 예측 목표가 Transformer의 표현 능력을 완전히 활용하기에 불충분함을 보여줍니다. 본 연구는 행동 조건부 대조 예측 코딩(action-conditioned Contrastive Predictive Coding)을 사용하여 고수준 시간적 특징 표현을 학습하고 에이전트 성능을 향상시키는 세계 모델인 TWISTER (Transformer-based World model wIth contraSTivE Representations)를 제안하여 세계 모델 예측을 더 긴 시간 지평선으로 확장합니다. TWISTER는 Atari 100k 벤치마크에서 162%의 사람 정규화 평균 점수를 달성하여 선행 조사를 사용하지 않는 최첨단 방법 중 새로운 기록을 세웠습니다.

시사점, 한계점

시사점: Transformer 기반 세계 모델에서 대조적 예측 코딩을 활용하여 장기간의 시간적 표현 학습 및 강화 학습 에이전트 성능 향상 가능성을 제시. Atari 100k 벤치마크에서 최고 성능 달성. 다음 상태 예측 목표의 한계를 극복하고 Transformer의 표현 능력을 더 잘 활용하는 새로운 방법 제시.
한계점: 본 논문에서 제시된 방법의 일반화 성능 및 다른 환경에서의 성능에 대한 추가적인 연구 필요. 선행 조사를 사용하지 않는다는 점이 성능 향상에 기여한 요소인지, TWISTER 알고리즘 자체의 효과인지 명확하게 구분할 필요. 다른 Transformer 기반 세계 모델과의 비교 분석이 더욱 상세하게 이루어질 필요가 있음.
👍