यह शोधपत्र डीपफेक ऑडियो पहचान की चुनौतियों का समाधान करने के लिए एक बड़े पैमाने पर और विविध डीपफेक ऑडियो डेटासेट, AUDETER प्रस्तुत करता है। प्रशिक्षण डेटा और वास्तविक दुनिया के डेटा के बीच विसंगतियों के कारण, मौजूदा डीपफेक पहचान विधियाँ वास्तविक दुनिया के वातावरण में प्रदर्शन में गिरावट से ग्रस्त हैं। AUDETER 11 टेक्स्ट-टू-स्पीच मॉडल और 10 वोकोडर द्वारा उत्पन्न 3 मिलियन से अधिक ऑडियो क्लिप (4,500 घंटे से अधिक) को शामिल करके इस चुनौती का समाधान करता है। प्रायोगिक परिणाम दर्शाते हैं कि मौजूदा डेटासेट पर प्रशिक्षित अत्याधुनिक विधियाँ नए डीपफेक ऑडियो नमूनों को सामान्य बनाने में कठिनाई का अनुभव करती हैं और उच्च मिथ्या सकारात्मक दर प्रदर्शित करती हैं। इसके विपरीत, AUDETER पर प्रशिक्षित विधियाँ अच्छा पहचान प्रदर्शन प्राप्त करती हैं और त्रुटि दर को उल्लेखनीय रूप से कम करती हैं।