Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Intersection of Reinforcement Learning and Bayesian Optimization for Intelligent Control of Industrial Processes: A Safe MPC-based DPG using Multi-Objective BO

Created by
  • Haebom

저자

Hossein Nejatbakhsh Esfahani, Javad Mohammadpour Velni

개요

본 논문은 모델 예측 제어(MPC) 기반 강화 학습(RL)의 한계점을 극복하기 위해 다목적 베이지안 최적화(MOBO)를 통합한 새로운 프레임워크를 제안한다. 기존 MPC-RL 접근 방식은 느린 수렴, 제한된 매개변수화로 인한 최적이 아닌 정책 학습, 그리고 온라인 적응 중 안전 문제 등의 단점을 가지고 있다. 본 연구에서는 호환 결정적 정책 경사(CDPG) 접근 방식을 통해 RL 단계 비용과 그 기울기를 추정하고, 기대 초과량 개선(EHVI) 획득 함수를 사용하여 MOBO 알고리즘에 통합함으로써 이러한 문제를 해결한다. 이를 통해 모델의 불완전성에도 불구하고 향상된 폐루프 성능을 달성하도록 MPC 매개변수를 효율적이고 안전하게 조정할 수 있다. 수치 예시를 통해 제안된 방법의 효과를 보여주며, 샘플 효율적이고 안정적이며 고성능의 제어 시스템 학습을 달성함을 증명한다.

시사점, 한계점

시사점:
MPC-RL의 수렴 속도 개선 및 성능 향상.
모델 불완전성에 대한 강건성 증가.
안전한 온라인 적응 가능성 제시.
샘플 효율적인 학습 가능성 증명.
한계점:
제안된 방법의 일반화 성능에 대한 추가적인 실험 및 분석 필요.
고차원 시스템에 대한 적용 가능성 및 효율성 검증 필요.
CDPG 기반 비용 및 기울기 추정의 정확도에 대한 의존성.
EHVI 함수 외 다른 획득 함수 사용에 대한 연구 필요.
👍