Bài báo này trình bày AUDETER, một bộ dữ liệu âm thanh deepfake quy mô lớn và đa dạng, nhằm giải quyết những thách thức trong việc phát hiện âm thanh deepfake. Các phương pháp phát hiện deepfake hiện có bị suy giảm hiệu suất trong môi trường thực tế do sự khác biệt giữa dữ liệu huấn luyện và dữ liệu thực tế. AUDETER giải quyết thách thức này bằng cách kết hợp hơn 3 triệu đoạn âm thanh (hơn 4.500 giờ) được tạo ra bởi 11 mô hình chuyển văn bản thành giọng nói và 10 bộ mã hóa giọng nói. Kết quả thử nghiệm cho thấy các phương pháp tiên tiến được huấn luyện trên các bộ dữ liệu hiện có gặp khó khăn trong việc khái quát hóa sang các mẫu âm thanh deepfake mới và cho thấy tỷ lệ dương tính giả cao. Ngược lại, các phương pháp được huấn luyện trên AUDETER đạt được hiệu suất phát hiện tốt và giảm đáng kể tỷ lệ lỗi.