Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

AUDETER : un ensemble de données à grande échelle pour la détection de deepfakes audio dans les mondes ouverts

Created by
  • Haebom

Auteur

Qizhou Wang, Hanxun Huang, Guansong Pang, Sarah Erfani, Christopher Leckie

Contour

Cet article présente AUDETER, un ensemble de données audio deepfake à grande échelle et diversifié, visant à relever les défis de la détection de ce type de données. Les méthodes de détection existantes souffrent d'une dégradation des performances en conditions réelles en raison des écarts entre les données d'entraînement et les données réelles. AUDETER relève ce défi en intégrant plus de 3 millions de clips audio (plus de 4 500 heures) générés par 11 modèles de synthèse vocale et 10 vocodeurs. Les résultats expérimentaux montrent que les méthodes de pointe entraînées sur des ensembles de données existants peinent à être généralisées aux nouveaux échantillons audio deepfake et présentent des taux de faux positifs élevés. En revanche, les méthodes entraînées sur AUDETER atteignent de bonnes performances de détection et réduisent considérablement les taux d'erreur.

Takeaways, Limitations

Takeaways:
Nous contribuons à l'avancement de la détection audio deepfake en fournissant AUDETER, un ensemble de données audio deepfake à grande échelle et diversifié.
Grâce à des expériences utilisant AUDETER, nous démontrons clairement les limites des méthodes de détection de deepfake existantes et soulignons la nécessité de développer un modèle de détection généralisé.
Nous démontrons que la formation basée sur AUDETER peut améliorer considérablement les performances de détection des deepfakes (atteignant un taux d'erreur de 4,17 %).
Limitations:
Malgré la diversité d'AUDETER, il se peut qu'il ne couvre pas entièrement tous les types d'audio deepfake dans le monde réel.
À Mesure que de nouvelles technologies de génération de deepfake émergent, la validité d’AUDETER peut diminuer avec le temps.
Bien que l’ensemble de données soit volumineux, il est possible que certains types d’audio deepfake soient sous-représentés ou surreprésentés.
👍