दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

ऑडेटर: ओपन वर्ल्ड्स में डीपफेक ऑडियो डिटेक्शन के लिए एक बड़े पैमाने का डेटासेट

Created by
  • Haebom

लेखक

किझोउ वांग, हानक्सुन हुआंग, गुआनसॉन्ग पैंग, सारा इरफ़ानी, क्रिस्टोफर लेकी

रूपरेखा

यह शोधपत्र डीपफेक ऑडियो पहचान की चुनौतियों का समाधान करने के लिए एक बड़े पैमाने पर और विविध डीपफेक ऑडियो डेटासेट, AUDETER प्रस्तुत करता है। प्रशिक्षण डेटा और वास्तविक दुनिया के डेटा के बीच विसंगतियों के कारण, मौजूदा डीपफेक पहचान विधियाँ वास्तविक दुनिया के वातावरण में प्रदर्शन में गिरावट से ग्रस्त हैं। AUDETER 11 टेक्स्ट-टू-स्पीच मॉडल और 10 वोकोडर द्वारा उत्पन्न 3 मिलियन से अधिक ऑडियो क्लिप (4,500 घंटे से अधिक) को शामिल करके इस चुनौती का समाधान करता है। प्रायोगिक परिणाम दर्शाते हैं कि मौजूदा डेटासेट पर प्रशिक्षित अत्याधुनिक विधियाँ नए डीपफेक ऑडियो नमूनों को सामान्य बनाने में कठिनाई का अनुभव करती हैं और उच्च मिथ्या सकारात्मक दर प्रदर्शित करती हैं। इसके विपरीत, AUDETER पर प्रशिक्षित विधियाँ अच्छा पहचान प्रदर्शन प्राप्त करती हैं और त्रुटि दर को उल्लेखनीय रूप से कम करती हैं।

Takeaways, Limitations

Takeaways:
हम AUDETER, एक बड़े पैमाने पर और विविध डीपफेक ऑडियो डेटासेट प्रदान करके डीपफेक ऑडियो पहचान की उन्नति में योगदान करते हैं।
AUDETER का उपयोग करते हुए प्रयोगों के माध्यम से, हम स्पष्ट रूप से मौजूदा डीपफेक पहचान विधियों की सीमाओं को प्रदर्शित करते हैं और एक सामान्यीकृत पहचान मॉडल विकसित करने की आवश्यकता पर बल देते हैं।
हम दर्शाते हैं कि AUDETER-आधारित प्रशिक्षण डीपफेक पहचान प्रदर्शन में उल्लेखनीय सुधार कर सकता है (4.17% की त्रुटि दर प्राप्त कर सकता है)।
Limitations:
AUDETER की विविधता के बावजूद, यह वास्तविक दुनिया में सभी डीपफेक ऑडियो प्रकारों को पूरी तरह से शामिल नहीं कर सकता है।
जैसे-जैसे नई डीपफेक पीढ़ी की प्रौद्योगिकियां उभरती जाएंगी, समय के साथ AUDETER की वैधता कम होती जाएगी।
यद्यपि डेटासेट बड़ा है, फिर भी ऐसी संभावना है कि कुछ प्रकार के डीपफेक ऑडियो का प्रतिनिधित्व कम या अधिक हो सकता है।
👍