Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

VINP: Suy luận Bayesian biến thiên với tiên lượng lời nói thần kinh cho việc khử vang lời nói hiệu quả ASR chung và nhận dạng RIR mù

Created by
  • Haebom

Tác giả

Pengyu Wang, Ying Fang, Xiaofei Li

Phác thảo

Bài báo này đề xuất phương pháp suy luận biến thiên với tiên nghiệm lời nói thần kinh (VINP), một phương pháp mới để ước tính đồng thời lời nói không phản xạ và đáp ứng xung phòng (RIR) từ lời nói có tiếng vang. VINP xây dựng một mô hình tín hiệu xác suất trong miền thời gian-tần số và sử dụng khuôn khổ suy luận Bayesian biến thiên (VBI) dựa trên mạng nơ-ron để ước tính tiên nghiệm lời nói không phản xạ. Không giống như các phương pháp khử tiếng vang kênh đơn thông thường, VINP hiệu quả đối với các hệ thống nhận dạng giọng nói tự động (ASR) và ước tính dạng sóng thông qua ước tính xác suất hậu nghiệm (MAP) và khả năng xảy ra tối đa (ML) của lời nói không phản xạ và RIR. Kết quả thử nghiệm chứng minh hiệu suất tiên tiến về Điểm ý kiến ​​trung bình (MOS) và Tỷ lệ lỗi từ (WER), cũng như hiệu suất vượt trội trong việc ước tính Thời gian vang ở 60 dB (RT60) và Tỷ lệ trực tiếp trên vang (DRR). Mã và mẫu âm thanh có sẵn trực tuyến.

Takeaways, Limitations

Takeaways:
Bằng cách kết hợp suy luận Bayes biến thiên và phân phối trước dựa trên mạng nơ-ron, chúng tôi giải quyết hiệu quả các vấn đề về triệt tiếng vang kênh đơn và nhận dạng RIR khi nhìn mù.
Chúng tôi đã đạt được hiệu suất tiên tiến có thể áp dụng trực tiếp vào các hệ thống nhận dạng giọng nói tự động.
Nó cũng cho thấy hiệu suất tuyệt vời trong việc ước tính RT60 và DRR.
Chúng tôi đã công khai mã và mẫu âm thanh để tăng khả năng tái tạo.
Limitations:
Bài báo thiếu tài liệu tham khảo cụ thể về Limitations hoặc hướng nghiên cứu trong tương lai.
Cần phân tích thêm để xác định khả năng tổng quát hóa hiệu suất cho các môi trường hoặc dữ liệu giọng nói cụ thể.
Có thể còn thiếu mô tả chi tiết về kiến ​​trúc mạng nơ-ron và siêu tham số được sử dụng.
👍