Cet article présente AUDETER, un ensemble de données audio deepfake à grande échelle et diversifié, visant à relever les défis de la détection de ce type de données. Les méthodes de détection existantes souffrent d'une dégradation des performances en conditions réelles en raison des écarts entre les données d'entraînement et les données réelles. AUDETER relève ce défi en intégrant plus de 3 millions de clips audio (plus de 4 500 heures) générés par 11 modèles de synthèse vocale et 10 vocodeurs. Les résultats expérimentaux montrent que les méthodes de pointe entraînées sur des ensembles de données existants peinent à être généralisées aux nouveaux échantillons audio deepfake et présentent des taux de faux positifs élevés. En revanche, les méthodes entraînées sur AUDETER atteignent de bonnes performances de détection et réduisent considérablement les taux d'erreur.