전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다. 본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다. 논문에 대한 저작권은 저자 및 해당 기관에 있으며, 요약본 공유 시 출처만 명기하면 됩니다. This service is supported by Google Gemini.
Offline Reinforcement Learning with Wasserstein Regularization via Optimal Transport Maps
Created by
Haebom
Category
Empty
저자
Motoki Omura, Yusuke Mukuta, Kazuki Ota, Takayuki Osa, Tatsuya Harada
개요
본 논문은 오프라인 강화학습에서 데이터 분포 변화 문제를 해결하기 위해 Wasserstein 거리를 이용한 새로운 정규화 기법을 제안합니다. 기존의 density ratio 기반 방법들과 달리, Wasserstein 거리는 out-of-distribution 데이터에 강건하고 행동 간의 유사성을 잘 포착합니다. 입력 볼록 신경망(ICNN)을 이용하여 최적 수송 맵을 모델링함으로써 discriminator-free 방식으로 Wasserstein 거리를 계산하여 안정적인 학습을 보장합니다. D4RL 벤치마크 데이터셋에서 기존 방법들과 비교하여 동등하거나 우수한 성능을 보였습니다.
시사점, 한계점
•
시사점:
◦
Wasserstein 거리를 이용한 새로운 정규화 기법은 오프라인 강화학습에서 데이터 분포 변화 문제를 효과적으로 해결할 수 있음을 보여줍니다.
◦
ICNN을 활용하여 discriminator-free 방식으로 Wasserstein 거리를 계산함으로써 안정적인 학습을 가능하게 합니다.