Jacob Adamczyk, Volodymyr Makarenko, Stas Tiomkin, Rahul V. Kulkarni
개요
본 논문은 할인 없이 장기간 문제를 해결할 수 있는 강화 학습(RL)의 평균 보상 공식에 대한 최근의 관심 증가에 대해 다룹니다. 할인된 설정에서는 엔트로피 규제 알고리즘이 개발되어 결정적 방법보다 성능이 향상되었습니다. 그러나 엔트로피 규제 평균 보상 목표를 위한 심층 RL 알고리즘은 개발되지 않았습니다. 본 논문에서는 이러한 분야의 간극을 해결하기 위해 평균 보상 소프트 액터-크리틱 알고리즘을 제시합니다. 기존 평균 보상 알고리즘과 표준 RL 벤치마크에서 비교하여 평균 보상 기준에 대한 우수한 성능을 달성함으로써 방법의 유효성을 검증합니다.
시사점, 한계점
•
시사점: 엔트로피 규제 평균 보상 목표를 위한 새로운 심층 강화학습 알고리즘(평균 보상 소프트 액터-크리틱)을 제시하고, 표준 RL 벤치마크에서 기존 알고리즘보다 우수한 성능을 보임으로써 평균 보상 공식의 효용성을 입증했습니다. 액터-크리틱 프레임워크를 활용한 평균 보상 문제 해결에 대한 새로운 접근 방식을 제시합니다.
•
한계점: 제시된 알고리즘의 성능이 특정 벤치마크에 국한될 가능성이 있습니다. 다양한 환경에서의 일반화 성능에 대한 추가적인 연구가 필요합니다. 알고리즘의 계산 비용 및 복잡도에 대한 분석이 부족합니다.