Confounding Robust Continuous Control via Automatic Reward Shaping

Created by

Haebom

저자

Mateo Juliani, Mingxuan Li, Elias Bareinboim

💡 개요

본 논문은 강화학습(RL)의 학습 속도를 높이는 보상 성형(reward shaping) 기법에서 발생하는 문제점을 해결하기 위해, 잠재적으로 관찰되지 않은 혼란 변수(confounding variables)에 오염된 오프라인 데이터셋으로부터 연속 제어 문제에 대한 보상 성형 함수를 자동으로 학습하는 방법을 제안합니다. 제안하는 방법은 인과적 벨만 방정식(causal Bellman equation)을 기반으로 최적 상태 가치(optimal state values)에 대한 상한선(tight upper bound)을 학습하고, 이를 잠재 기반 보상 성형(Potential-Based Reward Shaping, PBRS) 프레임워크의 잠재값(potentials)으로 활용합니다. 실험 결과, 제안된 보상 성형 알고리즘은 Soft-Actor-Critic(SAC)과 함께 다양한 연속 제어 벤치마크에서 우수한 성능을 보여주며, 관찰되지 않은 혼란 변수 하에서도 강력한 성능 보증을 제공합니다.

🔑 시사점 및 한계

•

핵심 시사점 1: 관찰되지 않은 혼란 변수가 존재하는 복잡한 연속 제어 환경에서도 효과적인 보상 성형 함수를 자동으로 학습할 수 있는 새로운 방법론을 제시합니다.

•

핵심 시사점 2: 인과적 추론의 원리를 적용하여 보상 성형의 이론적 기반을 강화하고, 강화학습의 신뢰성과 강건성을 높이는 방향으로 나아갑니다.

•

한계점 또는 향후 과제: 제안된 방법론의 이론적 성능 보증이 실제 복잡한 문제에서 어떻게 확장될 수 있는지, 그리고 학습된 보상 성형 함수의 해석 가능성 및 다양한 환경으로의 일반화 가능성에 대한 추가 연구가 필요합니다.

PDF 보기

Made with Slashpage