동적이고 제약이 많은 환경에서 안전하고 조화로운 행동을 달성하는 것은 학습 기반 제어의 주요 과제이다. 본 논문은 강화 학습(RL)을 통한 전술적 의사 결정과 모델 예측 제어(MPC)를 통한 저수준 실행을 결합하는 계층적 프레임워크를 제안한다. 다중 에이전트 시스템의 경우, 이는 고수준 정책이 구조화된 관심 영역(ROI)에서 추상적인 목표를 선택하고 MPC가 동적으로 실행 가능하고 안전한 움직임을 보장함을 의미한다. 포식자-피식자 벤치마크에서 테스트한 결과, 본 접근 방식은 보상, 안전성 및 일관성 측면에서 end-to-end 및 쉴딩 기반 RL 기반 모델보다 우수한 성능을 보이며, 구조화된 학습과 모델 기반 제어의 결합의 이점을 강조한다.