본 논문은 모델 예측 제어(MPC) 기반 강화 학습(RL)의 한계점을 극복하기 위해 다목적 베이지안 최적화(MOBO)를 통합한 새로운 프레임워크를 제안한다. 기존 MPC-RL 접근 방식은 느린 수렴, 제한된 매개변수화로 인한 최적이 아닌 정책 학습, 그리고 온라인 적응 중 안전 문제 등의 단점을 가지고 있다. 본 연구에서는 호환 결정적 정책 경사(CDPG) 접근 방식을 통해 RL 단계 비용과 그 기울기를 추정하고, 기대 초과량 개선(EHVI) 획득 함수를 사용하여 MOBO 알고리즘에 통합함으로써 이러한 문제를 해결한다. 이를 통해 모델의 불완전성에도 불구하고 향상된 폐루프 성능을 달성하도록 MPC 매개변수를 효율적이고 안전하게 조정할 수 있다. 수치 예시를 통해 제안된 방법의 효과를 보여주며, 샘플 효율적이고 안정적이며 고성능의 제어 시스템 학습을 달성함을 증명한다.