Este artículo propone un novedoso enfoque bidireccional que integra comandos discretos y acciones continuas para una toma de decisiones eficiente en situaciones adversas, como enfrentamientos estratégicos, en robótica de enjambre. Los métodos existentes de planificación de tareas y movimientos desacoplan la toma de decisiones en dos capas, pero su estructura unidireccional no logra capturar las interdependencias entre capas, lo que limita la adaptabilidad en entornos dinámicos. El enfoque bidireccional propuesto, basado en el aprendizaje por refuerzo jerárquico, asigna eficazmente los comandos a las asignaciones de tareas y las acciones a la planificación de rutas, utilizando técnicas de entrenamiento cruzado para mejorar el aprendizaje en todo el marco jerárquico. Además, introduce un modelo de predicción de trayectorias que vincula las representaciones abstractas de tareas con los objetivos de planificación factibles. Los resultados experimentales demuestran que el enfoque propuesto supera a los métodos existentes, logrando una tasa de victorias superior al 80 % y un tiempo de toma de decisiones inferior a 0,01 segundos. La demostración mediante experimentos a gran escala y experimentos con robots en el mundo real resalta aún más la generalización y la viabilidad del enfoque propuesto.