本論文は、群集ロボット工学における戦略的対立状況などの対立状況に対する効率的な意思決定のために離散命令と連続動作を統合する新しい双方向アプローチを提案する。既存の作業および動作計画方法は意思決定を2つの層に分けていますが、それらの一方向構造は層間の相互依存性を捉えず、動的な環境での適応性を制限します。本論文で提案されている階層強化学習ベースの双方向アプローチは、命令をタスク割り当てに、動作を経路計画に効果的にマッピングし、階層フレームワーク全体の学習を向上させるクロストレーニング技術を利用する。また、抽象作業表現と実行可能計画目標とを結ぶ軌跡予測モデルを導入する。実験の結果、80%以上の対決勝率と0.01秒未満の意思決定時間を達成し、既存の方法を凌駕することを示した。大規模なテストと実際のロボット実験によるデモは、この方法の一般化能力と実用性をさらに強調しています。