Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Sublinear Regret for a Class of Continuous-Time Linear-Quadratic Reinforcement Learning Problems

Created by
  • Haebom

저자

Yilie Huang, Yanwei Jia, Xun Yu Zhou

개요

본 논문은 상태가 스칼라 값이고 실행 제어 보상이 없지만 상태 프로세스의 변동성이 상태 및 제어 변수 모두에 따라 달라지는 연속 시간 선형-2차(LQ) 제어 문제의 클래스에 대한 강화 학습(RL)을 연구합니다. 모델 매개변수 지식이나 추정에 의존하지 않는 모델 없는 접근 방식을 적용하여 최적 정책 매개변수를 직접 학습하는 RL 알고리즘을 고안합니다. 주요 기여는 탐색 일정의 도입과 제안된 알고리즘의 후회 분석입니다. 정책 매개변수의 최적값으로의 수렴 속도를 제공하고, 알고리즘이 로그 인수까지 $O(N^{\frac{3}{4}})$의 후회 경계를 달성함을 증명합니다. 시뮬레이션 연구를 통해 이론적 결과를 검증하고 제안된 알고리즘의 효과와 신뢰성을 보여줍니다. 또한, 상태 및 제어 의존 변동성 설정에 적용된 최근 모델 기반 확률적 LQ RL 연구와의 수치적 비교를 수행하여 후회 경계 측면에서 전자의 성능이 더 우수함을 보여줍니다.

시사점, 한계점

시사점:
상태 및 제어 의존 변동성을 갖는 연속 시간 선형-2차(LQ) 제어 문제에 대한 모델 없는 강화 학습 알고리즘을 제시합니다.
제안된 알고리즘의 후회 경계를 $O(N^{\frac{3}{4}})$으로 분석적으로 증명합니다.
시뮬레이션 결과를 통해 알고리즘의 효과성과 신뢰성을 검증하고 기존 방법과 비교하여 우수성을 보여줍니다.
한계점:
상태가 스칼라 값인 경우에만 적용 가능합니다.
실행 제어 보상이 없는 경우에만 적용 가능합니다.
고차원 상태 공간으로의 확장에 대한 추가 연구가 필요합니다.
실제 시스템에 대한 적용 및 검증이 추가적으로 필요합니다.
👍