Sign In

Bootstrap Off-policy with World Model

Created by
  • Haebom
Category
Empty

저자

Guojian Zhan, Likun Wang, Xiangteng Zhang, Jiaxin Gao, Masayoshi Tomizuka, Shengbo Eben Li

개요

BOOM (Bootstrap Off-policy with WOrld Model)은 강화 학습(RL)에서 온라인 계획과 오프-폴리시 학습을 통합한 프레임워크입니다. 계획은 정책을 초기화하고, 정책은 계획을 부트스트랩하여 행동 정렬을 통해 개선합니다. BOOM은 미래 궤적을 시뮬레이션하고 정책 개선을 위한 가치 목표를 제공하는 공동 학습된 세계 모델을 사용합니다. 핵심 요소는 계획자의 비모수적 행동 분포를 사용하는 우도 없는 정렬 손실과 높은 반환 행동을 우선시하고 리플레이 버퍼 내 계획자의 행동 품질 변동성을 완화하는 소프트 가치 가중 메커니즘입니다.

시사점, 한계점

시사점:
온라인 계획과 오프-폴리시 학습을 효과적으로 결합하여 샘플 효율성과 성능을 향상시킴.
계획자의 행동 분포를 활용하는 새로운 정렬 손실을 제시하여 정책 부트스트랩.
소프트 가치 가중 메커니즘을 통해 계획자의 행동 품질 변동성 문제를 해결.
DeepMind Control Suite 및 Humanoid-Bench에서 SOTA 달성.
한계점:
논문에서 구체적인 한계점은 명시되지 않음. (다만, 온라인 계획의 특성상 계산 비용이 높을 수 있음)
👍