動的で制約の高い環境で安全で調和のとれた行動を達成することは、学習ベースの制御の主な課題です。本論文は、強化学習(RL)による戦術的意思決定とモデル予測制御(MPC)による低レベル実行を組み合わせた階層フレームワークを提案する。マルチエージェントシステムの場合、これは、高レベルのポリシーが構造化関心領域(ROI)から抽象的な目標を選択し、MPCが動的に実行可能で安全な動きを保証することを意味します。捕食者と被験者のベンチマークでテストした結果、このアプローチは、補償、安全性、および一貫性の観点から、エンドツーエンドおよびシールドベースのRLベースのモデルよりも優れたパフォーマンスを示し、構造化学習とモデルベースの制御の組み合わせの利点を強調します。