En este artículo, proponemos SHIELD, un novedoso método de aprendizaje colaborativo para abordar la vulnerabilidad de la detección de audio deepfake. Demostramos experimentalmente que los métodos existentes de detección de audio deepfake son vulnerables a ataques antiforenses (AF) basados en redes generativas adversarias, y diseñamos un marco de aprendizaje colaborativo que integra un modelo generativo defensivo (DF) para defenderse de ellos. SHIELD utiliza un modelo triplete para capturar la correlación entre el audio de ataque real y el AF, y el audio de ataque real y el generado mediante un modelo generativo auxiliar. Demuestra un excelente rendimiento en varios modelos generativos de los conjuntos de datos ASVspoof2019, In-the-Wild y HalfTruth, y mitiga eficazmente la degradación de la precisión de detección causada por los ataques AF.