Moritz A. Zanger, Max Weltevrede, Yaniv Oren, Pascal R. Van der Vaart, Caroline Horsch, Wendelin Bohmer, Matthijs T. J. Spaan
개요
본 논문은 강화학습에서 가치 함수의 인식적 불확실성을 추정하는 새로운 방법인 Universal Value-Function Uncertainties (UVU)를 제안합니다. UVU는 온라인 학습 네트워크와 고정된 무작위 초기화 타겟 네트워크 간의 제곱 예측 오차를 불확실성으로 정량화하는데, Random Network Distillation (RND)과 유사하지만 정책 조건부 가치 불확실성을 반영합니다. 이는 UVU의 학습 절차에서 온라인 네트워크가 고정된 무작위 초기화 타겟 네트워크에서 파생된 합성 보상을 사용하여 시간 차이 학습으로 훈련되기 때문입니다. 신경 탄젠트 커널(NTK) 이론을 사용한 광범위한 이론적 분석을 통해 무한한 네트워크 너비의 한계에서 UVU 오차가 독립적인 범용 가치 함수 앙상블의 분산과 정확히 동일함을 보여줍니다. 실험적으로, UVU는 복잡한 다중 작업 오프라인 강화학습 설정에서 대규모 앙상블과 동등한 성능을 달성하면서 단순성과 상당한 계산 비용 절감을 제공함을 보여줍니다.
시사점, 한계점
•
시사점:
◦
복잡한 다중 작업 오프라인 강화학습 설정에서 대규모 앙상블과 동등한 성능을 보이는 새로운 불확실성 추정 방법 UVU 제시.
◦
기존의 앙상블 방법에 비해 계산 비용이 상당히 감소.
◦
NTK 이론을 활용한 이론적 분석으로 UVU의 타당성을 뒷받침.
◦
정책 조건부 가치 불확실성을 고려하여 더욱 정확한 불확실성 추정 가능.
•
한계점:
◦
무한한 네트워크 너비의 한계에서의 이론적 분석 결과가 유한한 네트워크 너비의 실제 상황에 얼마나 잘 적용될지는 추가 연구 필요.