Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Global Convergence for Average Reward Constrained MDPs with Primal-Dual Actor Critic Algorithm

Created by
  • Haebom

저자

Yang Xu, Swetha Ganesh, Washim Uddin Mondal, Qinbo Bai, Vaneet Aggarwal

개요

본 논문은 일반적인 매개변수화를 갖는 무한 지평선 평균 보상 제약 마르코프 의사결정 프로세스(CMDP)를 연구합니다. 제약 조건을 효과적으로 관리하면서 높은 수렴 속도를 보장하는 Primal-Dual Natural Actor-Critic 알고리즘을 제안합니다. 특히, 혼합 시간(τmix)을 학습자가 알고 있는 경우, 본 알고리즘은 길이 T의 지평선에서 $\tilde{\mathcal{O}}(1/\sqrt{T})$의 전역 수렴 및 제약 위반율을 달성합니다. τmix를 모르는 경우, $T \geq \tilde{\mathcal{O}}\left(\tau_{\mathrm{mix}}^{2/\epsilon}\right)$이면 $\tilde{\mathcal{O}}(1/T^{0.5-\epsilon})$의 속도를 달성합니다. 본 논문의 결과는 마르코프 의사결정 프로세스에 대한 이론적 하한선과 일치하며, 평균 보상 CMDP의 이론적 탐구에 새로운 기준을 제시합니다.

시사점, 한계점

시사점:
일반적인 매개변수화를 갖는 무한 지평선 평균 보상 CMDP에 대한 새로운 Primal-Dual Natural Actor-Critic 알고리즘 제시.
알고리즘의 전역 수렴 및 제약 위반율에 대한 이론적 보장 ($\tilde{\mathcal{O}}(1/\sqrt{T})$ 또는 $\tilde{\mathcal{O}}(1/T^{0.5-\epsilon})$).
마르코프 의사결정 프로세스에 대한 이론적 하한선과 일치하는 결과 도출.
평균 보상 CMDP 이론적 탐구에 새로운 기준 제시.
한계점:
알고리즘의 성능은 혼합 시간(τmix)의 지식에 의존적임. τmix를 모르는 경우, 수렴 속도가 감소함.
$T \geq \tilde{\mathcal{O}}\left(\tau_{\mathrm{mix}}^{2/\epsilon}\right)$ 조건을 만족해야 함. 이는 충분히 큰 T를 필요로 할 수 있음.
👍