Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Ensemble de données IndieFake : un ensemble de données de référence pour la détection des deepfakes audio

Created by
  • Haebom

Auteur

Abhay Kumar, Kunal Verma, OmkarPlus

Contour

Cet article soutient que les progrès de la technologie des deepfakes audio présentent de sérieux risques pour la sécurité, la confidentialité et la confiance dans les communications numériques, ainsi que pour les avantages qu'ils apportent. Les bases de données existantes pour la détection des deepfakes audio présentent des limites : elles manquent d'accents ethniques diversifiés, ce qui les rend difficiles à appliquer en situation réelle. De plus, leurs performances de détection sont particulièrement faibles dans les contextes linguistiques et culturels d'Asie du Sud. Dans cette étude, nous présentons l'ensemble de données IndieFake (IFD), qui contient 27,17 heures de données audio réelles et deepfakes provenant de 50 Indiens anglophones. L'IFD fournit une distribution équilibrée des données et des informations sur les caractéristiques des locuteurs, et nous comparons ses performances à celles des bases de données existantes, ASVspoof21 (DF) et In-The-Wild (ITW). Nous démontrons que l'IFD surpasse ASVspoof21 (DF) et est plus exigeant que l'ensemble de données ITW sur un seul benchmark. L'ensemble de données est accessible au public à des fins de recherche.

Takeaways, Limitations

Takeaways:
Nouvel ensemble de données (IFD) pour améliorer les performances de détection des deepfakes audio
Contribuer à la recherche sur la détection des deepfakes audio en tenant compte du contexte linguistique et culturel sud-asiatique
Souligner l’importance des ensembles de données qui incluent divers accents ethniques
Activation de la recherche sur les deepfakes audio avec des ensembles de données publics
Limitations:
L'ensemble de données actuel est limité aux Indiens anglophones. Il est nécessaire d'étendre les données à d'autres langues et régions.
La taille de l’ensemble de données doit être élargie pour des études à plus grande échelle.
À Mesure que la technologie de deepfake audio continue de progresser, des mises à jour continues de l'ensemble de données sont nécessaires.
👍