Policy Optimization over General State and Action Spaces

Created by

Haebom

저자

Caleb Ju, Guanghui Lan

💡 개요

본 논문은 일반적인 상태 및 행동 공간을 갖는 강화학습 문제의 어려움을 해결하기 위한 새로운 정책 최적화 방법론을 제안합니다. 기존에는 상태 공간을 모두 열거해야 했던 제약을 벗어나, 함수 근사를 직접적으로 활용하여 명시적인 정책 매개변수화 없이도 적용 가능한 정책 거울 하강법(policy mirror descent)을 일반화했습니다. 또한, 함수 근사 기술에 좀 더 유연성을 제공하는 새로운 정책 쌍평균법(policy dual averaging)을 개발했으며, 두 방법 모두 정확한 정책 평가를 가정할 때 전역 최적해로의 선형 수렴 또는 정류점(stationarity)으로의 준선형 수렴을 보장합니다.

🔑 시사점 및 한계

•

일반적인 상태 및 행동 공간을 갖는 강화학습 문제에 대한 이론적 기반과 실용적인 알고리즘 프레임워크를 제공합니다.

•

명시적인 정책 매개변수화 없이 함수 근사를 통해 기존 방법의 한계를 극복할 수 있는 가능성을 제시합니다.

•

함수 근사 오차가 정책 평가 및 알고리즘 수렴에 미치는 영향을 체계적으로 분석하여 이론적 이해를 높였습니다.

•

현재 연구는 정확한 정책 평가를 가정한 상태에서의 수렴성을 분석하였으므로, 근사적인 정책 평가를 사용하는 실제 환경에서의 수렴성 및 성능에 대한 추가적인 연구가 필요합니다.

PDF 보기

Made with Slashpage