[공지사항]을 빙자한 안부와 근황 
Show more

Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

AMNet: Mạng mô hình âm thanh để tổng hợp giọng nói tiếng Quan Thoại nâng cao

Created by
  • Haebom

Tác giả

Yubing Cao, Yinfeng Yu, Yongming Li, Liejun Wang

Phác thảo

AMNet là một mạng mô hình âm thanh được thiết kế để cải thiện hiệu suất tổng hợp giọng nói tiếng Quan Thoại bằng cách tích hợp chú thích cấu trúc cụm từ và các mô-đun tích chập cục bộ. Dựa trên kiến ​​trúc FastSpeech 2, nó giải quyết thách thức của mô hình hóa ngữ cảnh cục bộ, điều này rất quan trọng để nắm bắt các đặc điểm giọng nói phức tạp như ngắt quãng, nhấn mạnh và ngữ điệu. Nó kết hợp một trình phân tích cú pháp cấu trúc cụm từ vào mô hình và giới thiệu một mô-đun tích chập cục bộ để cải thiện độ nhạy của mô hình đối với thông tin cục bộ. Ngoài ra, AMNet cung cấp hướng dẫn rõ ràng để mô hình hóa thanh điệu bằng cách tách các đặc điểm thanh điệu khỏi âm vị, giúp cải thiện độ chính xác của thanh điệu và cách phát âm. Kết quả thử nghiệm cho thấy AMNet vượt trội hơn các mô hình cơ sở trong cả đánh giá chủ quan và khách quan. Mô hình đề xuất đạt được điểm ý kiến ​​trung bình (MOS) tuyệt vời, Độ méo tiếng Mel Cepstral (MCD) thấp và cải thiện khả năng khớp tần số cơ bản $F0(R^2)$, xác minh khả năng tạo ra giọng nói tiếng Quan Thoại chất lượng cao, tự nhiên và biểu cảm.

Takeaways, Limitations

Takeaways:
Chúng tôi chứng minh rằng chú thích cấu trúc cụm từ và mô-đun tích chập cục bộ có thể được sử dụng để cải thiện chất lượng tổng hợp giọng nói tiếng Quan Thoại.
Trình bày một phương pháp hiệu quả để cải thiện độ chính xác của mô hình cao độ bằng cách tách biệt đặc điểm cao độ và âm vị.
ĐạT hiệu suất vượt trội so với các mô hình hiện có trong cả đánh giá chủ quan và khách quan.
Limitations:
Bài báo thiếu mô tả chi tiết về các chi tiết kiến ​​trúc cụ thể hoặc việc triển khai AMNet.
Có sự đánh giá hạn chế về hiệu suất khái quát giữa các phương ngữ tiếng Quan Thoại hoặc đặc điểm người nói khác nhau.
Cần có một phân tích so sánh sâu hơn với các mô hình tổng hợp giọng nói khác.
👍