Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

AUDETER: Bộ dữ liệu quy mô lớn để phát hiện âm thanh Deepfake trong thế giới mở

Created by
  • Haebom

Tác giả

Qizhou Wang, Hanxun Huang, Guansong Pang, Sarah Erfani, Christopher Leckie

Phác thảo

Bài báo này trình bày AUDETER, một bộ dữ liệu âm thanh deepfake quy mô lớn và đa dạng, nhằm giải quyết những thách thức trong việc phát hiện âm thanh deepfake. Các phương pháp phát hiện deepfake hiện có bị suy giảm hiệu suất trong môi trường thực tế do sự khác biệt giữa dữ liệu huấn luyện và dữ liệu thực tế. AUDETER giải quyết thách thức này bằng cách kết hợp hơn 3 triệu đoạn âm thanh (hơn 4.500 giờ) được tạo ra bởi 11 mô hình chuyển văn bản thành giọng nói và 10 bộ mã hóa giọng nói. Kết quả thử nghiệm cho thấy các phương pháp tiên tiến được huấn luyện trên các bộ dữ liệu hiện có gặp khó khăn trong việc khái quát hóa sang các mẫu âm thanh deepfake mới và cho thấy tỷ lệ dương tính giả cao. Ngược lại, các phương pháp được huấn luyện trên AUDETER đạt được hiệu suất phát hiện tốt và giảm đáng kể tỷ lệ lỗi.

Takeaways, Limitations

Takeaways:
Chúng tôi đóng góp vào sự phát triển của công nghệ phát hiện âm thanh deepfake bằng cách cung cấp AUDETER, một bộ dữ liệu âm thanh deepfake đa dạng và quy mô lớn.
Thông qua các thí nghiệm sử dụng AUDETER, chúng tôi chứng minh rõ ràng những hạn chế của các phương pháp phát hiện deepfake hiện có và nhấn mạnh nhu cầu phát triển một mô hình phát hiện tổng quát.
Chúng tôi chứng minh rằng đào tạo dựa trên AUDETER có thể cải thiện đáng kể hiệu suất phát hiện deepfake (đạt tỷ lệ lỗi là 4,17%).
Limitations:
Mặc dù AUDETER rất đa dạng, nhưng nó có thể không bao gồm đầy đủ tất cả các loại âm thanh deepfake trong thế giới thực.
Khi các công nghệ tạo deepfake mới xuất hiện, tính hợp lệ của AUDETER có thể giảm dần theo thời gian.
Mặc dù tập dữ liệu rất lớn, nhưng vẫn có khả năng một số loại âm thanh deepfake có thể bị thiếu hoặc thừa.
👍