Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Optimal Output Feedback Learning Control for Discrete-Time Linear Quadratic Regulation

Created by
  • Haebom
Category
Empty

저자

Kedi Xie, Martin Guay, Shimin Wang, Fang Deng, Maobin Lu

개요

본 논문은 미지의 이산시간 시스템에 대한 선형 제곱 규제(LQR) 문제를 동적 출력 피드백 학습 제어를 통해 연구합니다. 상태 피드백과 달리, LQR 문제를 해결하기 위한 동적 출력 피드백 제어의 최적성은 상태 관측기의 수렴에 대한 암시적 조건을 필요로 합니다. 또한, 알려지지 않은 시스템 행렬과 관측기 오차의 존재로 인해 기존의 대부분의 출력 피드백 학습 기반 제어 방법의 수렴성과 안정성을 분석하는 것이 어렵습니다. 이러한 문제를 해결하기 위해, 본 논문에서는 미지의 이산시간 선형 시스템의 LQR 문제를 해결하기 위한 수렴성, 안정성 및 최적성 성능이 보장되는 일반화된 동적 출력 피드백 학습 제어 방법을 제안합니다. 특히, 상태 피드백 제어기와 동등한 동적 출력 피드백 제어기를 설계합니다. 이 동등성 관계는 상태 관측기에 의한 추정 상태의 수렴을 필요로 하지 않는 고유한 속성이며, 오프-정책 학습 제어 방법을 확립하는 데 중요한 역할을 합니다. 값 반복 및 정책 반복 계획을 통해, 최적 피드백 제어 이득을 추정하기 위한 적응적 동적 프로그래밍 기반 학습 제어 방법이 개발됩니다. 또한, 비특이적 매개변수화 행렬을 찾음으로써 모델이 없는 안정성 기준이 제공되며, 이는 전환 반복 계획을 확립하는 데 기여합니다. 더 나아가, 제안된 출력 피드백 학습 제어 방법의 수렴성, 안정성 및 최적성 분석이 제시됩니다. 마지막으로, 두 가지 수치 예제를 통해 이론적 결과를 검증합니다.

시사점, 한계점

시사점: 미지의 이산시간 시스템에 대한 LQR 문제를 해결하는 새로운 동적 출력 피드백 학습 제어 방법 제시. 상태 관측기의 수렴에 대한 암시적 조건 없이도 최적성을 보장하는 동적 출력 피드백 제어기 설계. 값 반복 및 정책 반복 기반의 적응적 동적 프로그래밍을 활용한 학습 제어 방법 개발. 모델이 없는 안정성 기준 제공 및 전환 반복 계획 확립. 수렴성, 안정성 및 최적성 분석 제공.
한계점: 제안된 방법의 실제 시스템 적용에 대한 검증 부족. 특정 유형의 시스템에만 적용 가능할 수 있는 제한점 존재 가능성. 계산 복잡도에 대한 분석 부족. 잡음이 있는 환경에서의 성능 분석 부족.
👍