본 논문은 오프라인 강화학습(RL)에서 데이터 오류에 강건한 정책 학습 방법을 제시합니다. 기존의 시간차 학습 기반 오프라인 RL 방법들은 데이터 오류에 취약하지만, 의사결정 트랜스포머(Decision Transformer)와 같은 순차 모델링 방법은 데이터 오류에 대해 강건함을 보입니다. 이에 본 논문에서는 임베딩 드롭아웃, 가우시안 가중치 학습, 그리고 반복적인 데이터 수정이라는 세 가지 강건한 기법을 통합한 강건한 의사결정 트랜스포머(RDT)를 제안합니다. MuJoCo, Kitchen, Adroit 작업에 대한 광범위한 실험을 통해 RDT가 다양한 데이터 오류 시나리오에서 기존 방법보다 우수한 성능을 보임을 입증하고, 훈련 시간 데이터 오류와 테스트 시간 관측 잡음이 결합된 더욱 어려운 환경에서도 뛰어난 강건성을 보임을 확인했습니다.