Adapting World Models with Latent-State Dynamics Residuals
Created by
Haebom
저자
JB Lanier, Kyungmin Kim, Armin Karamzade, Yifei Liu, Ankita Sinha, Kat He, Davide Corsi, Roy Fox
개요
시뮬레이션-실제 강화학습(RL)에서 시뮬레이션과 실제 세계 역학 간의 불일치를 해결하는 것은 중요한 과제입니다. 잔차 오류 함수로 표현된 시뮬레이터 순방향 역학에 대한 수정을 학습하는 접근 방식이 유망하지만, 이미지와 같은 고차원 상태에서는 비실용적입니다. 본 논문에서는 시뮬레이션에서 사전 훈련되고 잠재 상태 역학의 잔차 수정을 통해 목표 환경에 맞춰 보정된 잠재 상태 자기회귀 세계 모델인 ReDRAW를 제안합니다. 이 적응된 세계 모델을 사용하여 ReDRAW는 수정된 역학 하에서 상상된 전개로 RL 에이전트를 최적화한 후 실제 세계에 배포할 수 있게 합니다. 여러 비전 기반 MuJoCo 도메인과 물리적 로봇 시각적 차선 추종 작업에서 ReDRAW는 역학 변화를 효과적으로 모델링하고 기존 전이 방법이 실패하는 낮은 데이터 환경에서 과적합을 방지합니다.
시사점, 한계점
•
시사점:
◦
고차원 상태(이미지 등)에서 시뮬레이션과 실제 세계 간의 역학 불일치 문제를 효과적으로 해결하는 새로운 방법 제시.
◦
잠재 상태 역학 수정을 통해 낮은 데이터 환경에서도 안정적인 성능을 보이는 것을 실험적으로 증명.
◦
비전 기반 로봇 제어 분야에 적용 가능성을 보임.
•
한계점:
◦
제안된 방법의 일반화 성능에 대한 추가적인 연구 필요. 다양한 환경 및 작업에 대한 적용성 검증이 필요함.