Sign In

Optimal Output Feedback Learning Control for Discrete-Time Linear Quadratic Regulation

Created by
  • Haebom
Category
Empty

저자

Kedi Xiea, Martin Guay, Shimin Wang, Fang Deng, Maobin Lu

개요

본 논문은 동적 출력 피드백 학습 제어를 통해 미지의 이산 시간 시스템의 선형 제곱 규제(LQR) 문제를 연구합니다. 상태 피드백과 달리, LQR 문제를 해결하기 위한 동적 출력 피드백 제어의 최적성은 상태 관측기의 수렴에 대한 암시적 조건을 필요로 합니다. 또한, 알려지지 않은 시스템 행렬과 관측기 오차의 존재로 인해 기존의 대부분의 출력 피드백 학습 기반 제어 방법의 수렴성과 안정성을 분석하는 것이 어렵습니다. 이러한 문제를 해결하기 위해, 본 논문에서는 미지의 이산 시간 선형 시스템의 LQR 문제를 해결하기 위한 수렴성, 안정성 및 최적성 성능이 보장되는 일반화된 동적 출력 피드백 학습 제어 방법을 제안합니다. 특히, 동적 출력 피드백 제어기는 상태 피드백 제어기와 동등하도록 설계됩니다. 이러한 동등 관계는 상태 관측기에 의한 추정 상태의 수렴을 필요로 하지 않는 고유한 특성이며, 오프 정책 학습 제어 방법을 확립하는 데 중요한 역할을 합니다. 값 반복 및 정책 반복 기법을 통해 적응적 동적 프로그래밍 기반 학습 제어 기법을 개발하여 최적 피드백 제어 이득을 추정합니다. 또한, 비특이적 매개변수화 행렬을 찾음으로써 모델 없는 안정성 기준을 제공하며, 이는 전환 반복 기법을 확립하는 데 기여합니다. 마지막으로, 제안된 출력 피드백 학습 제어 방법의 수렴성, 안정성 및 최적성 분석을 제시하고, 두 가지 수치 예시를 통해 이론적 결과를 검증합니다.

시사점, 한계점

시사점:
미지의 이산 시간 시스템에 대한 LQR 문제를 해결하기 위한 수렴성, 안정성 및 최적성이 보장되는 새로운 동적 출력 피드백 학습 제어 방법 제시.
상태 관측기의 수렴을 필요로 하지 않는 동적 출력 피드백 제어기와 상태 피드백 제어기의 동등 관계를 이용한 오프 정책 학습 제어 접근 방식 확립.
값 반복 및 정책 반복 기반의 적응적 동적 프로그래밍을 이용한 최적 피드백 제어 이득 추정.
모델 없는 안정성 기준 제공 및 전환 반복 기법 확립.
수치 예시를 통한 제안된 방법의 효과 검증.
한계점:
제안된 방법의 실제 시스템 적용에 대한 검증 부족.
잡음이나 불확실성이 존재하는 실제 시스템에서의 성능 분석 필요.
더욱 복잡한 시스템이나 비선형 시스템에 대한 확장성 연구 필요.
👍