Sign In

Actor-Critics Can Achieve Optimal Sample Efficiency

Created by
  • Haebom
Category
Empty

저자

Kevin Tan, Wei Fan, Yuting Wei

개요

본 논문은 전략적 탐색이 필요한 일반적인 함수 근사를 사용하는 상황에서, 기존 강화학습(RL)의 actor-critic 알고리즘의 표본 복잡도 한계를 극복하는 새로운 알고리즘을 제시합니다. 제안된 알고리즘은 $O(dH^5 \log|\mathcal{A}|/\epsilon^2 + d H^4 \log|\mathcal{F}|/ \epsilon^2)$의 표본 복잡도를 달성하며, Bellman eluder dimension $d$가 $T$에 대해 $\log T$ 비율보다 빠르게 증가하지 않는 경우 $\sqrt{T}$ 후회를 동반합니다. 여기서 $\mathcal{F}$는 비평가 함수 클래스, $\mathcal{A}$는 행동 공간, $H$는 유한 지평 MDP 설정에서의 지평입니다. 이 알고리즘은 낙관주의, 최적 Q-함수를 목표로 하는 오프폴리시 비평가 추정, 그리고 드문 전환 정책 재설정을 통합합니다. 또한, 하이브리드 RL 설정으로 확장하여, 오프라인 데이터로 비평가를 초기화하면 순수 오프라인 또는 온라인 RL에 비해 표본 효율성이 향상됨을 보여줍니다. 더 나아가, 오프라인 데이터에 접근하여 낙관주의를 생략하는 대신 $N_{\text{off}} \geq c_{\text{off}}^dH^4/\epsilon^2$의 추가적인 오프라인 샘플만 필요로 하는 증명 가능한 효율적인 비낙관적인 actor-critic 알고리즘을 제공합니다. 여기서 $c_{\text{off}}^$는 단일 정책 집중 계수이고 $N_{\text{off}}$는 오프라인 샘플의 수입니다. 마지막으로, 이론적 결과를 뒷받침하는 수치 실험을 제공합니다.

시사점, 한계점

시사점:
전략적 탐색이 필요한 일반 함수 근사 환경에서 $O(1/\epsilon^2)$의 표본 복잡도를 갖는 $\epsilon$-최적 정책 학습이라는 미해결 문제를 해결.
하이브리드 RL 설정에서 오프라인 데이터를 활용한 표본 효율성 향상을 보임.
낙관주의를 필요로 하지 않는 증명 가능한 효율적인 오프라인 보조 actor-critic 알고리즘 제시.
이론적 분석을 뒷받침하는 수치 실험 결과 제시.
한계점:
Bellman eluder dimension $d$가 $T$에 대해 $\log T$ 비율보다 빠르게 증가하는 경우의 성능 보장 없음.
제안된 알고리즘의 실제 적용 가능성 및 일반화 성능에 대한 추가적인 실험적 검증 필요.
$c_{\text{off}}^*$의 크기가 알고리즘의 성능에 큰 영향을 미칠 수 있으므로, 이에 대한 추가적인 분석 필요.
👍