Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

SoloSpeech: Nâng cao trí thông minh và chất lượng trong trích xuất giọng nói mục tiêu thông qua quy trình tạo tầng

Created by
  • Haebom

Tác giả

Helin Wang, Jiarui Hai, Dongchao Yang, Chen Chen, Kai Li, Junyi Peng, Thomas Thebaud, Laureano Moro Velazquez, Jesus Villalba, Najim Dehak

Phác thảo

Bài báo này đề cập đến vấn đề Trích xuất giọng nói mục tiêu (TSE), bao gồm việc tách giọng nói của một người nói cụ thể khỏi hỗn hợp giọng nói của nhiều người nói. Các phương pháp TSE hiện có chủ yếu sử dụng các mô hình phân biệt, mang lại chất lượng nhận dạng cao. Tuy nhiên, chúng gặp phải các vấn đề như hiện tượng nhiễu, giảm độ tự nhiên và nhạy cảm với sự không khớp giữa môi trường huấn luyện và môi trường kiểm tra. Mặt khác, các mô hình sinh lại gặp phải vấn đề về chất lượng nhận dạng và độ rõ ràng thấp. Trong bài báo này, chúng tôi đề xuất SoloSpeech, một quy trình tạo tầng mới tích hợp các quy trình nén, trích xuất, tái tạo và hiệu chỉnh. Thay vì dựa vào nhúng giọng nói, SoloSpeech sử dụng thông tin có điều kiện từ không gian tiềm ẩn của âm thanh tín hiệu để căn chỉnh nó với không gian tiềm ẩn của âm thanh hỗn hợp, do đó tránh được sự không khớp. Đánh giá trên tập dữ liệu Libri2Mix cho thấy SoloSpeech vượt trội hơn các phương pháp tiên tiến hiện có về cả độ rõ ràng và chất lượng, đồng thời thể hiện hiệu suất tổng quát hóa tuyệt vời đối với dữ liệu phi miền và các bối cảnh thực tế.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một phương pháp TSE mới có thể đạt hiệu suất cao mà không cần nhúng loa.
Cải thiện các vấn đề về tạo hiện vật, suy giảm tính tự nhiên và thích ứng miền của các phương pháp hiện có _____T1605____-.
ĐạT được hiệu suất tiên tiến mới trên tập dữ liệu Libri2Mix.
Thể hiện hiệu suất khái quát tuyệt vời trên dữ liệu ngoài miền và môi trường thực tế.
Limitations:
Thiếu phân tích về chi phí tính toán và độ phức tạp của SoloSpeech.
Thiếu đánh giá độ mạnh mẽ cho nhiều môi trường tiếng ồn khác nhau.
Thiếu đánh giá các tập dữ liệu bổ sung ngoài các tập dữ liệu thực tế.
👍