ABPT: Amended Backpropagation through Time with Partially Differentiable Rewards
Created by
Haebom
저자
Fanxing Li, Fangyu Sun, Tianbao Zhang, Danping Zou
개요
본 논문에서는 쿼드로터 제어 정책을 학습하기 위한 새로운 알고리즘인 Amended Backpropagation-through-Time (ABPT)를 제안합니다. 기존 BPTT 방식은 보상 함수의 완전한 미분 가능성을 요구하지만, 현실적으로는 부분 미분 가능한 보상 함수를 사용하는 경우가 많아 기울기 전파의 편향으로 학습 성능이 저하되는 문제가 있습니다. ABPT는 0-step과 N-step 수익을 결합하여 학습된 Q-value 함수의 기울기를 활용함으로써 이러한 기울기 편향을 완화합니다. 또한, 엔트로피 정규화와 상태 초기화 메커니즘을 통해 탐색을 장려합니다. 실제 환경과 시뮬레이션 환경 모두에서 네 가지 대표적인 쿼드로터 비행 과제에 대한 실험 결과, ABPT는 기존 학습 알고리즘보다 훨씬 빠르게 수렴하고 더 높은 최종 보상을 달성함을 보여줍니다. 특히 부분 미분 가능한 보상 함수를 사용하는 과제에서 그 효과가 두드러집니다. 소스 코드는 http://github.com/Fanxing-LI/ABPT 에서 공개될 예정입니다.