Cet article propose un nouveau cadre de défense contre les cibles mobiles (MTD) basé sur l'apprentissage par renforcement profond multi-agent fédéré (FMADRL) pour atténuer les attaques par déni de service (DoS) sur les réseaux à basse altitude dans les environnements d'essaim de drones. Pour faire face à la menace DoS posée par l'environnement sans fil ouvert, la topologie dynamique et les contraintes de ressources des drones, nous concevons des mécanismes MTD légers et coordonnés, incluant la commutation de leader, la mutation de chemin et le saut de fréquence. Le problème de défense est formulé comme un processus de décision de Markov partiellement observé multi-agent (POMDP) pour capturer l'incertitude de l'essaim de drones attaqué. Chaque drone est équipé d'un agent de politique qui sélectionne de manière autonome les actions MTD en fonction d'observations partielles et de l'expérience locale. À l'aide d'un algorithme basé sur le gradient de politique, les drones optimisent conjointement leurs politiques par agrégation pondérée par la récompense. Les résultats de la simulation montrent que la méthode proposée améliore les taux d'atténuation des attaques jusqu'à 34,6 %, réduit le temps de récupération moyen jusqu'à 94,6 % et réduit la consommation d'énergie et les coûts de défense jusqu'à 29,3 % et 98,3 %, respectivement, par rapport aux références de pointe.