CROP: Conservative Reward for Model-based Offline Policy Optimization

Created by

Haebom

저자

Hao Li, Xiao-Hu Zhou, Shu-Hai Li, Mei-Jiang Gui, Xiao-Liang Xie, Shi-Qi Liu, Shuang-Yi Wang, Zhen-Qiu Feng, Zeng-Guang Hou

💡 개요

본 논문은 오프라인 강화학습에서 발생하는 분포 변화로 인한 보상 과대평가 문제를 해결하기 위해, 모델 기반 접근법을 활용한 새로운 알고리즘 CROP(Conservative Reward for model-based Offline Policy optimization)을 제안합니다. CROP는 추정 오류와 무작위 행동의 보상을 동시에 최소화하는 간소화된 목표를 설계하여, 견고하게 보수적인 보상 추정치를 생성합니다.

🔑 시사점 및 한계

•

오프라인 RL 환경에서 분포 변화로 인한 보상 과대평가 문제를 효과적으로 완화할 수 있습니다.

•

보상 추정 방식의 간단한 수정만으로도 기존 방법론과 경쟁력 있는 성능을 달성할 수 있습니다.

•

무작위 행동의 보상 최소화라는 아이디어가 보수적인 정책 평가와 분포 변화 완화에 기여함을 이론적으로 분석하였습니다.

•

제안된 알고리즘의 성능은 실험을 통해 검증되었으나, 실제 적용 시에는 모델의 정확성과 데이터 분포의 특성에 따른 추가적인 연구가 필요할 수 있습니다.

PDF 보기

Made with Slashpage