Este artículo propone un nuevo marco de defensa de objetivos móviles (MTD) basado en aprendizaje de refuerzo profundo multiagente federado (FMADRL) para mitigar ataques de denegación de servicio (DoS) en redes de baja altitud en entornos de enjambre de vehículos aéreos no tripulados (UAV). Para abordar la amenaza de DoS que plantea el entorno inalámbrico abierto de los UAV, la topología dinámica y las limitaciones de recursos, diseñamos mecanismos MTD ligeros y coordinados, que incluyen cambio de líder, mutación de ruta y salto de frecuencia. El problema de defensa se formula como un proceso de decisión de Markov parcialmente observado (POMDP) multiagente para capturar la incertidumbre del enjambre de UAV bajo ataque. Cada UAV está equipado con un agente de políticas que selecciona de forma autónoma las acciones MTD basándose en observaciones parciales y la experiencia local. Utilizando un algoritmo basado en gradientes de políticas, los UAV optimizan conjuntamente sus políticas mediante la agregación ponderada por recompensa. Los resultados de la simulación muestran que el método propuesto mejora las tasas de mitigación de ataques hasta en un 34,6%, reduce el tiempo medio de recuperación hasta en un 94,6% y reduce el consumo de energía y los costos de defensa hasta en un 29,3% y 98,3%, respectivamente, en comparación con las líneas de base más modernas.