Behavior-Consistent Deep Reinforcement Learning

작성자

Haebom

카테고리

Empty

저자

Marcel Hussing, Liv G. d'Aliberti, Claas Voelcker, Benjamin Eysenbach, Eric Eaton

💡 개요

본 논문은 강화학습(RL)에서 발생하는 훈련 실행 간 정책의 높은 편차 문제를 해결하기 위해, 성능은 높으면서 훈련 실행 간 분포적으로 유사한 정책을 학습하는 '행동 일관적인 RL'을 제안합니다. 최대 엔트로피 RL이 훈련 실행을 공통 사전 확률에 고정함으로써 행동 편차를 제어하는 메커니즘을 제공한다는 점에 착안하여, Q-함수 불일치에 비례하는 온도 설정을 통해 정책 간 KL 발산을 제한할 수 있음을 증명했습니다. 나아가 Q-값 기대치 불일치(QED)라는 상태 종속적인 온도 스케줄을 개발하여 훈련 실행 간 불일치를 두 자릿수 이상 줄이면서도 성능을 유지했습니다.

🔑 시사점 및 한계

•

강화학습 모델의 훈련 실행 간 불안정성을 획기적으로 개선하여 실제 환경 적용 가능성을 높일 수 있습니다.

•

최대 엔트로피 RL의 원리를 활용하여 정책 편차를 효과적으로 제어하는 새로운 방법을 제시합니다.

•

제안된 QED 방법은 성능 저하 없이 훈련 실행 간 정책 불일치를 크게 줄이며, 이는 RL 모델의 신뢰성 향상으로 이어집니다.

•

높은 엔트로피가 정책 최적화를 저해하거나 오프-정책 오류를 증폭시킬 수 있는 잠재적 문제는 향후 연구를 통해 해결하거나 완화할 필요가 있습니다.

PDF 보기

Made with Slashpage