Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Nghiên cứu về tỷ lệ tín hiệu bất biến trên méo tiếng trong tách giọng nói với tham chiếu nhiễu

Created by
  • Haebom

Tác giả

Simon Dahl Jepsen, Mads Gr{\ae}sb{\o}ll Christensen, Jesper Rindom Jensen

Phác thảo

Bài báo này nghiên cứu tác động của việc sử dụng Tỷ lệ tín hiệu trên méo bất biến theo tỷ lệ (SI-SDR) làm thước đo đánh giá và mục tiêu học tập trong tách giọng nói có giám sát khi sử dụng dữ liệu tham chiếu đào tạo có nhiễu, chẳng hạn như WSJ0-2Mix. Việc suy ra SI-SDR bằng dữ liệu tham chiếu có nhiễu cho thấy nhiễu giới hạn SI-SDR có thể đạt được hoặc đưa vào nhiễu không mong muốn trong đầu ra đã tách. Để giải quyết vấn đề này, chúng tôi đề xuất một phương pháp để nâng cao dữ liệu tham chiếu bằng cách sử dụng WHAM! và tăng cường dữ liệu hỗn hợp để đào tạo các mô hình tránh học từ dữ liệu tham chiếu có nhiễu. Hai mô hình được đào tạo trên tập dữ liệu nâng cao được đánh giá bằng cách sử dụng thước đo NISQA.v2 không xâm lấn. Kết quả chứng minh khả năng giảm nhiễu trong giọng nói đã tách, nhưng cho thấy rằng các hiện tượng lạ được đưa vào trong quá trình xử lý dữ liệu tham chiếu có thể hạn chế việc cải thiện chất lượng tổng thể. Một mối tương quan âm giữa SI-SDR và ​​nhiễu nhận thức được đã được tìm thấy trên các bộ thử nghiệm WSJ0-2Mix và Libri2Mix, hỗ trợ cho kết quả suy ra.

Takeaways, Limitations

_____T17913____-: Chúng tôi trình bày những thách thức gặp phải khi sử dụng SI-SDR làm mục tiêu học tập bằng dữ liệu tham chiếu nhiễu, cũng như hiệu quả của các kỹ thuật tăng cường và bổ sung dữ liệu tham chiếu để giải quyết những thách thức này. Chúng tôi đã xác nhận bằng thực nghiệm mối tương quan nghịch giữa SI-SDR và ​​nhiễu cảm nhận được.
Limitations: Các hiện tượng nhiễu được phát hiện trong quá trình xử lý dữ liệu tham chiếu có thể hạn chế việc cải thiện chất lượng âm thanh tổng thể. Cần nghiên cứu thêm để xác định liệu phương pháp đề xuất có hiệu quả đối với tất cả các loại tiếng ồn hay không.
👍