Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Mamba2 gặp Silence: Phân tách nguồn giọng hát mạnh mẽ cho các vùng thưa thớt

Created by
  • Haebom

Tác giả

Euiyeon Kim, Yong-Hoon Choi

Phác thảo

Bài báo này trình bày một mô hình tách nguồn mới chuyên biệt cho việc tách giọng nói chính xác. Để khắc phục khó khăn của các mô hình dựa trên Transformer hiện có trong việc thu âm giọng nói ngắt quãng, chúng tôi sử dụng Mamba2, một mô hình không gian trạng thái tiên tiến, có khả năng thu âm tốt hơn các phụ thuộc thời gian dài hạn. Để xử lý hiệu quả các chuỗi đầu vào dài, chúng tôi kết hợp chiến lược phân chia băng tần với kiến ​​trúc đường dẫn kép. Kết quả thử nghiệm chứng minh rằng mô hình đề xuất vượt trội hơn các mô hình tiên tiến hiện tại, đạt cSDR (tốt nhất trong phân khúc) là 11,03 dB và thể hiện sự cải thiện hiệu suất đáng kể ngay cả ở uSDR. Hơn nữa, nó thể hiện hiệu suất ổn định và nhất quán trên nhiều độ dài đầu vào và các kiểu xuất hiện giọng nói khác nhau. Những kết quả này chứng minh tính hiệu quả của mô hình dựa trên Mamba đối với xử lý âm thanh độ phân giải cao và gợi ý những hướng đi mới cho các ứng dụng rộng rãi hơn trong nghiên cứu âm thanh.

Takeaways, Limitations

Takeaways:
Bằng cách sử dụng mô hình dựa trên Mamba2, chúng tôi khắc phục được những hạn chế của các mô hình dựa trên Transformer hiện có và cải thiện đáng kể hiệu suất tách giọng nói (cSDR là 11,03 dB).
Chúng tôi đề xuất một phương pháp xử lý hiệu quả các chuỗi đầu vào dài bằng cách sử dụng chiến lược chia băng tần và kiến ​​trúc đường dẫn kép.
Hiệu suất ổn định của nó trên nhiều độ dài đầu vào và kiểu mẫu giọng nói khác nhau giúp tăng cường tiềm năng ứng dụng thực tế.
Chúng tôi chứng minh tính hữu ích của các mô hình dựa trên Mamba trong xử lý âm thanh độ phân giải cao.
Limitations:
Bài báo này không cung cấp lời giải thích chi tiết về việc triển khai cụ thể mô hình Mamba2 hoặc điều chỉnh siêu tham số.
ĐáNh giá hiệu suất cho các loại tách nguồn âm thanh khác (ví dụ: tách nhạc cụ) không được trình bày.
Cần phải phân tích sâu hơn về hiệu suất tổng quát trên các tập dữ liệu khác ngoài tập dữ liệu âm nhạc thực tế.
👍