Robust Regularized Policy Iteration under Transition Uncertainty

Created by

Haebom

저자

Hongqiang Lin, Zhenghui Fu, Weihao Tang, Pengfei Wang, Yiding Sun, Qixian Huang, Dongxu Zhang

💡 개요

본 논문은 온라인 탐색 없이 안전하고 데이터 효율적인 정책 학습을 가능하게 하는 오프라인 강화학습(RL)에서 발생하는 분포 변화(distribution shift)로 인한 성능 저하 문제를 해결하고자 합니다. 이를 위해 본 연구에서는 전이 커널을 불확실성 집합 내의 결정 변수로 취급하고 최악의 동역학에 대해 정책을 최적화하는 견고한 정책 최적화(robust policy optimization) 방식으로 오프라인 RL을 공식화했습니다. 제안된 Robust Regularized Policy Iteration (RRPI) 알고리즘은 다루기 어려운 max-min 이중 목표를 다루기 쉬운 KL-정규화된 대리 목표로 대체하고, 견고한 정규화 벨만 연산자를 기반으로 효율적인 정책 반복 절차를 도출합니다.

🔑 시사점 및 한계

•

오프라인 강화학습에서 발생하는 정책 유발 외삽(policy-induced extrapolation) 및 전이 불확실성(transition uncertainty) 문제를 통합적으로 다루는 새로운 프레임워크를 제시합니다.

•

제안된 Robust Regularized Policy Iteration (RRPI) 알고리즘은 이론적 보장과 함께 D4RL 벤치마크 실험에서 우수한 성능과 견고성을 입증합니다.

•

RRPI는 높은 인식 불확실성(epistemic uncertainty) 영역에서 Q-값을 감소시켜 정책이 전이 불확실성 하에서 신뢰할 수 없는 분포 외(out-of-distribution) 행동을 회피하도록 유도합니다.

•

실제 환경에서의 적용 가능성과 더 복잡한 불확실성 집합에 대한 확장성이 향후 연구 과제입니다.

PDF 보기

Made with Slashpage