Este artículo presenta AUDETER, un conjunto de datos de audio deepfake a gran escala y diverso, para abordar los desafíos de la detección de audio deepfake. Los métodos existentes de detección de deepfake sufren una degradación del rendimiento en entornos reales debido a discrepancias entre los datos de entrenamiento y los datos reales. AUDETER aborda este desafío incorporando más de 3 millones de clips de audio (más de 4500 horas) generados por 11 modelos de texto a voz y 10 vocoders. Los resultados experimentales muestran que los métodos de vanguardia entrenados con conjuntos de datos existentes tienen dificultades para generalizarse a nuevas muestras de audio deepfake y presentan altas tasas de falsos positivos. Por el contrario, los métodos entrenados con AUDETER logran un buen rendimiento de detección y reducen significativamente las tasas de error.