[공지사항]을 빙자한 안부와 근황 
Show more

Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Pháp y giọng nói: Hướng tới việc thiết lập và phân tích bộ dữ liệu giọng nói tổng hợp toàn diện

Created by
  • Haebom

Tác giả

Chu Lâm Cơ, Thần Hào Lâm, Hàng Vương, Triều Thần

Phác thảo

Để Khắc phục những hạn chế của nhiều bộ dữ liệu phân tích giọng nói tổng hợp, khi việc phân biệt giữa giọng nói thật và giọng nói tổng hợp ngày càng trở nên quan trọng do nguy cơ thông tin giả mạo và đánh cắp danh tính ngày càng tăng, chúng tôi đề xuất một bộ dữ liệu Speech-Forensics bao gồm toàn diện các mẫu giọng nói thật, tổng hợp và giả mạo một phần, chứa nhiều phân đoạn được tổng hợp bởi nhiều thuật toán chất lượng cao khác nhau. Ngoài ra, chúng tôi đề xuất một Mạng Định vị Giọng nói Tạm thời (TEST) đồng thời thực hiện xác minh tính xác thực, định vị nhiều phân đoạn giả mạo và nhận dạng các thuật toán tổng hợp mà không cần xử lý hậu kỳ phức tạp. TEST tích hợp hiệu quả LSTM và Transformer để trích xuất các biểu diễn giọng nói tạm thời mạnh mẽ và ước tính các phân đoạn tổng hợp bằng cách sử dụng dự đoán dày đặc trên các đặc trưng kim tự tháp đa tỷ lệ. Mô hình đề xuất đạt được mAP trung bình là 83,55% và EER là 5,25% ở cấp độ lời nói, và EER là 1,07% và điểm F1 là 92,19% ở cấp độ phân đoạn, làm nổi bật khả năng mạnh mẽ của nó trong việc phân tích toàn diện giọng nói tổng hợp.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một tập dữ liệu Speech-Forensics mới chứa nhiều loại giọng nói tổng hợp được tạo ra bởi nhiều thuật toán chất lượng cao.
Đề Xuất một mạng TEST hiệu quả có thể thực hiện đồng thời xác minh tính xác thực, phát hiện vị trí phân đoạn giả và nhận dạng thuật toán tổng hợp.
Nó đại diện cho bước tiến đáng kể trong lĩnh vực phân tích giọng nói tổng hợp, đạt được độ chính xác cao (mAP cấp độ phát ngôn 83,55%, EER 5,25%; EER cấp độ phân đoạn 1,07%, F1 92,19%).
Cung cấp nền tảng hữu ích cho nghiên cứu phân tích giọng nói tổng hợp trong tương lai và các ứng dụng thực tế.
Limitations:
Thiếu thông tin cụ thể về quy mô và tính đa dạng của tập dữ liệu (quy mô tập dữ liệu, loại và tỷ lệ của các thuật toán tổng hợp khác nhau, v.v.)
Cần phải xác minh thêm hiệu suất tổng quát của mô hình đề xuất (khả năng chống chịu với nhiều môi trường, nhiễu, v.v.)
Thiếu đánh giá hiệu suất trên dữ liệu giọng nói phức tạp trong thế giới thực (ví dụ: tiếng ồn nền, chồng chéo, v.v.)
👍