Target-Aligned Reinforcement Learning

작성자

Haebom

카테고리

Empty

저자

Leonard S. Pleiss, James Harrison, Maximilian Schiffer

💡 개요

기존 딥 강화학습 알고리즘은 학습 안정화를 위해 지연된 타겟 네트워크를 사용하지만, 이는 업데이트 지연으로 인한 학습 속도 저하라는 안정성-최신성 트레이드오프를 야기합니다. 본 논문은 타겟 네트워크와 온라인 네트워크의 추정치가 높은 상태에서 발생하는 전이를 강조하는 Target-Aligned Reinforcement Learning (TARL)을 제안합니다. TARL은 이러한 잘 정렬된 타겟에 업데이트를 집중함으로써, 오래된 타겟 추정치의 부정적인 영향을 완화하면서 타겟 네트워크의 안정화 이점을 유지합니다.

🔑 시사점 및 한계

•

타겟 네트워크와 온라인 네트워크 간의 정렬 정도를 활용하여 학습 안정성을 유지하면서도 학습 속도를 개선할 수 있습니다.

•

기존 알고리즘에 쉽게 적용 가능한 드롭인(drop-in) 방식으로, 하이퍼파라미터 튜닝 없이도 다양한 환경에서 일관적인 성능 향상을 보여줍니다.

•

Atari 10개 환경에서 최대 38.18%의 점수 향상을 달성했으며, 실행 시간 증가율은 4% 미만으로 효율적입니다.

•

본 연구는 정렬 정도를 활용하는 메커니즘에 초점을 맞추었으나, 향후 다양한 정렬 지표 및 타겟 업데이트 전략을 탐색하여 TARL의 효과를 더욱 극대화할 수 있을 것입니다.

PDF 보기

Made with Slashpage