इस पत्र में, हम डीपफेक ऑडियो डिटेक्शन की भेद्यता को दूर करने के लिए एक नवीन सहयोगी शिक्षण पद्धति, SHIELD का प्रस्ताव करते हैं। हम प्रयोगात्मक रूप से दर्शाते हैं कि मौजूदा डीपफेक ऑडियो डिटेक्शन विधियाँ जनरेटिव एडवर्सरियल नेटवर्क पर आधारित एंटी-फोरेंसिक (AF) हमलों के प्रति संवेदनशील हैं, और एक सहयोगी शिक्षण ढाँचा तैयार करते हैं जो इनसे बचाव के लिए एक रक्षात्मक जनरेटिव मॉडल (DF) को एकीकृत करता है। SHIELD वास्तविक और AF हमले की ऑडियो, और एक सहायक जनरेटिव मॉडल का उपयोग करके उत्पन्न वास्तविक और हमले की ऑडियो के बीच सहसंबंध को समझने के लिए एक ट्रिपलेट मॉडल का उपयोग करता है। यह ASVspoof2019, In-the-Wild, और HalfTruth डेटासेट पर विभिन्न जनरेटिव मॉडलों पर मज़बूत प्रदर्शन प्रदर्शित करता है, और AF हमलों के कारण होने वाली डिटेक्शन सटीकता में गिरावट को प्रभावी ढंग से कम करता है।