Dans cet article, nous proposons SHIELD, une nouvelle méthode d'apprentissage collaboratif pour remédier à la vulnérabilité de la détection des deepfakes audio. Nous démontrons expérimentalement que les méthodes existantes de détection des deepfakes audio sont vulnérables aux attaques anti-forensiques (AF) basées sur des réseaux antagonistes génératifs, et concevons un cadre d'apprentissage collaboratif intégrant un modèle génératif défensif (DF) pour s'en protéger. SHIELD utilise un modèle triplet pour capturer la corrélation entre les audios réels et ceux issus d'attaques AF, et ceux générés à l'aide d'un modèle génératif auxiliaire. Il démontre d'excellentes performances sur divers modèles génératifs sur les jeux de données ASVspoof2019, In-the-Wild et HalfTruth, et atténue efficacement la dégradation de la précision de détection causée par les attaques AF.