Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Chuyển đổi giọng nói Zero-Shot thông qua Bộ âm sắc nhận biết nội dung và Ghép luồng có điều kiện

Created by
  • Haebom

Tác giả

Yu Pan, Yuguang Yang, Jixun Yao, Lei Ma, Jianjun Zhao

Phác thảo

Bài báo này đề xuất khuôn khổ Mô hình Hiệu quả Chuyển đổi Tính toán (CTEFM-VC) để giải quyết những thách thức trong việc đảm bảo tính tương đồng và tự nhiên của người nói trong chuyển đổi giọng nói zero-shot (VC). CTEF-VC phân tích giọng nói thành nội dung và âm sắc và tái tạo phổ Mel của giọng nói nguồn bằng mô hình khớp dòng có điều kiện. Cụ thể, nó giới thiệu mô hình tổng hợp âm sắc nhận biết ngữ cảnh và hàm mất âm sắc dựa trên độ tương đồng về cấu trúc để nâng cao hiệu suất mô hình hóa âm sắc và độ tự nhiên của giọng nói được tạo ra. Một mô-đun chú ý chéo tích hợp một cách thích ứng các nhúng xác minh người nói khác nhau tận dụng hiệu quả nội dung nguồn và các thành phần âm sắc đích. Kết quả thử nghiệm cho thấy CTEFM-VC vượt trội đáng kể so với các hệ thống VC zero-shot hiện đại, đạt được hiệu suất tiên tiến về độ tương đồng, độ tự nhiên và độ rõ ràng của người nói.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một khuôn khổ mới, CTEFM-VC, giúp cải thiện đáng kể độ tương đồng và tính tự nhiên của người nói trong quá trình chuyển đổi giọng nói không cần phát âm.
Nâng cao hiệu suất thông qua mô hình tổng hợp âm sắc nhận biết ngữ cảnh và hàm mất âm sắc dựa trên sự tương đồng về cấu trúc.
Sử dụng hiệu quả các nhúng xác minh người nói đa dạng.
Hiệu suất vượt trội so với các mẫu máy tiên tiến hiện có.
Limitations:
Bài báo thiếu tài liệu tham khảo cụ thể về Limitations hoặc hướng nghiên cứu trong tương lai.
Cần có mô tả chi tiết về thiết lập thử nghiệm và tập dữ liệu.
Có thể có sự thiên vị đối với một số ngôn ngữ hoặc dữ liệu giọng nói.
👍