Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Data-Driven Exploration for a Class of Continuous-Time Indefinite Linear--Quadratic Reinforcement Learning Problems

Created by
  • Haebom

저자

Yilie Huang, Xun Yu Zhou

개요

본 논문은 Huang et al. (2024)의 연구에서 다룬 연속 시간 확률적 선형-2차(LQ) 제어 문제와 같은 종류의 문제에 대한 강화 학습(RL)을 연구합니다. 상태는 스칼라 값이고 실행 제어 보상이 없는 상태에서 변동성이 상태와 제어 모두에 의존하는 문제입니다. 논문에서는 비모델 기반의 데이터 기반 탐색 메커니즘을 제안하는데, 이 메커니즘은 비평가에 의한 엔트로피 규제와 행위자에 의한 정책 분산을 적응적으로 조정합니다. 기존 연구(Huang et al., 2024)에서 사용된 일정하거나 결정적인 탐색 일정과 달리, 제안된 적응적 탐색 접근 방식은 최소한의 조정으로 학습 효율을 높입니다. 유연성에도 불구하고, 본 방법은 이러한 종류의 LQ 문제에 대한 최고의 비모델 기반 결과와 일치하는 준선형 후회 경계를 달성합니다. 이전에는 고정된 탐색 일정을 통해서만 도출되었습니다. 수치 실험은 적응적 탐색이 비적응적 비모델 기반 및 모델 기반 방법과 비교하여 수렴을 가속화하고 후회 성능을 향상시킨다는 것을 보여줍니다.

시사점, 한계점

시사점:
적응적 탐색 메커니즘을 통해 강화학습의 학습 효율을 향상시킬 수 있음을 보여줌.
최소한의 조정으로 최고 수준의 준선형 후회 경계를 달성.
비적응적 방법 대비 수렴 속도 개선 및 후회 성능 향상을 실험적으로 증명.
한계점:
현재 스칼라 값 상태와 실행 제어 보상이 없는 특정 종류의 LQ 문제에만 적용 가능.
더욱 복잡한 시스템이나 다양한 문제 설정으로의 일반화 가능성에 대한 추가 연구 필요.
제안된 적응적 탐색 메커니즘의 이론적 성능 분석의 한계.
👍