Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ABPT: Amended Backpropagation through Time with Partially Differentiable Rewards

Created by
  • Haebom

저자

Fanxing Li, Fangyu Sun, Tianbao Zhang, Danping Zou

개요

본 논문에서는 쿼드로터 제어 정책을 학습하기 위한 새로운 알고리즘인 Amended Backpropagation-through-Time (ABPT)를 제안합니다. 기존 BPTT 방식은 보상 함수의 완전한 미분 가능성을 요구하지만, 현실적으로는 부분 미분 가능한 보상 함수를 사용하는 경우가 많아 기울기 전파의 편향으로 학습 성능이 저하되는 문제가 있습니다. ABPT는 0-step과 N-step 수익을 결합하여 학습된 Q-value 함수의 기울기를 활용함으로써 이러한 기울기 편향을 완화합니다. 또한, 엔트로피 정규화와 상태 초기화 메커니즘을 통해 탐색을 장려합니다. 실제 환경과 시뮬레이션 환경 모두에서 네 가지 대표적인 쿼드로터 비행 과제에 대한 실험 결과, ABPT는 기존 학습 알고리즘보다 훨씬 빠르게 수렴하고 더 높은 최종 보상을 달성함을 보여줍니다. 특히 부분 미분 가능한 보상 함수를 사용하는 과제에서 그 효과가 두드러집니다. 소스 코드는 http://github.com/Fanxing-LI/ABPT 에서 공개될 예정입니다.

시사점, 한계점

시사점:
부분 미분 가능한 보상 함수를 사용하는 쿼드로터 제어 문제에 효과적인 새로운 학습 알고리즘 ABPT 제시
기존 BPTT 기반 알고리즘보다 빠른 수렴 속도 및 높은 최종 보상 달성
실제 환경과 시뮬레이션 환경 모두에서 성능 검증
엔트로피 정규화와 상태 초기화 메커니즘을 통한 효과적인 탐색 전략 제시
소스 코드 공개를 통한 재현성 및 확장성 확보
한계점:
제안된 알고리즘의 일반화 성능에 대한 추가적인 연구 필요
다양한 쿼드로터 제어 과제 및 환경에 대한 추가적인 실험 필요
다른 강화 학습 알고리즘과의 더욱 포괄적인 비교 분석 필요
👍