Sign In

Tackling Data Corruption in Offline Reinforcement Learning via Sequence Modeling

Created by
  • Haebom
Category
Empty

저자

Jiawei Xu, Rui Yang, Shuang Qiu, Feng Luo, Meng Fang, Baoxiang Wang, Lei Han

개요

본 논문은 오프라인 강화학습(RL)에서 데이터 오류에 강건한 정책 학습 방법을 제시합니다. 기존의 시간차 학습 기반 오프라인 RL 방법들은 데이터 오류에 취약하지만, 의사결정 트랜스포머(Decision Transformer)와 같은 순차 모델링 방법은 데이터 오류에 대해 강건함을 보입니다. 이에 본 논문에서는 임베딩 드롭아웃, 가우시안 가중치 학습, 그리고 반복적인 데이터 수정이라는 세 가지 강건한 기법을 통합한 강건한 의사결정 트랜스포머(RDT)를 제안합니다. MuJoCo, Kitchen, Adroit 작업에 대한 광범위한 실험을 통해 RDT가 다양한 데이터 오류 시나리오에서 기존 방법보다 우수한 성능을 보임을 입증하고, 훈련 시간 데이터 오류와 테스트 시간 관측 잡음이 결합된 더욱 어려운 환경에서도 뛰어난 강건성을 보임을 확인했습니다.

시사점, 한계점

시사점:
순차 모델링 방법이 오프라인 RL에서 데이터 오류에 대한 강건성을 제공함을 보여줍니다.
제안된 RDT는 기존 방법보다 다양한 데이터 오류 시나리오에서 우수한 성능을 보입니다.
RDT는 훈련 및 테스트 시간의 다양한 잡음에 대해 강건함을 제공합니다.
실제 환경의 노이즈가 많은 데이터를 활용한 오프라인 RL의 신뢰성 향상에 기여할 수 있습니다.
한계점:
제안된 방법의 효과는 특정 유형의 데이터 오류에 국한될 수 있습니다.
다른 유형의 오프라인 RL 방법과의 비교 분석이 더욱 필요할 수 있습니다.
실제 세계의 복잡한 문제에 대한 적용성에 대한 추가적인 연구가 필요합니다.
👍