Cet article propose une nouvelle approche bidirectionnelle intégrant des commandes discrètes et des actions continues pour une prise de décision efficace dans des situations conflictuelles, telles que des confrontations stratégiques, en robotique en essaim. Les méthodes existantes de planification des tâches et des mouvements découplent la prise de décision en deux couches, mais leur structure unidirectionnelle ne parvient pas à capturer les interdépendances entre les couches, limitant ainsi l'adaptabilité dans les environnements dynamiques. L'approche bidirectionnelle proposée, basée sur l'apprentissage par renforcement hiérarchique, associe efficacement les commandes aux affectations de tâches et les actions à la planification de trajectoire, en utilisant des techniques d'entraînement croisé pour améliorer l'apprentissage dans le cadre hiérarchique. De plus, elle introduit un modèle de prédiction de trajectoire qui relie les représentations abstraites des tâches à des objectifs de planification réalisables. Les résultats expérimentaux démontrent que l'approche proposée surpasse les méthodes existantes, atteignant un taux de victoire de plus de 80 % et un temps de prise de décision inférieur à 0,01 seconde. La démonstration par des expériences à grande échelle et des expériences robotiques réelles souligne encore la généralisabilité et la praticabilité de l'approche proposée.