Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Mô hình thời lượng thích ứng cho việc căn chỉnh giọng nói văn bản

Created by
  • Haebom

Tác giả

Cao Junjie

Phác thảo

Bài báo này tập trung vào việc căn chỉnh giọng nói thành văn bản, một yếu tố quan trọng trong các mô hình văn bản thành giọng nói (TTS) dựa trên mạng nơ-ron. Các mô hình TTS tự hồi quy thường học căn chỉnh trực tuyến bằng cơ chế chú ý, trong khi các mô hình TTS đầu cuối không tự hồi quy dựa trên các khoảng thời gian được trích xuất từ ​​các nguồn bên ngoài. Trong bài báo này, chúng tôi đề xuất một khuôn khổ dự đoán khoảng thời gian mới có thể cung cấp các phân phối khoảng thời gian ở cấp độ âm vị đầy hứa hẹn từ văn bản cho trước. Kết quả thực nghiệm chứng minh rằng mô hình khoảng thời gian được đề xuất chính xác hơn và thích ứng với các điều kiện hơn so với các mô hình cơ sở hiện có. Cụ thể, nó cải thiện đáng kể độ chính xác căn chỉnh ở cấp độ âm vị và giúp các mô hình TTS zero-shot mạnh mẽ hơn trước sự không khớp giữa âm thanh nhắc và âm thanh đầu vào.

Takeaways, Limitations

Takeaways:
Một khuôn khổ dự đoán thời lượng mới cung cấp khả năng dự đoán thời lượng ở cấp độ ngữ âm và khả năng thích ứng với điều kiện chính xác hơn so với các mô hình hiện có.
Nó góp phần cải thiện độ chính xác của việc căn chỉnh cấp độ âm vị và tăng cường độ mạnh mẽ của các mô hình TTS không cần chỉnh sửa.
Nó có thể góp phần cải thiện hiệu suất của các mô hình TTS đầu cuối không tự hồi quy.
Limitations:
Cần đánh giá thêm về hiệu suất tổng quát của mô hình đề xuất.
Kết quả thử nghiệm cho nhiều dữ liệu ngôn ngữ và lời nói khác nhau không được trình bày.
Cần có một phân tích so sánh toàn diện hơn với các mô hình dự đoán thời lượng khác.
👍