Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới. Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận. Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.
Koel-TTS: Nâng cao khả năng tạo giọng nói dựa trên LLM với sự sắp xếp ưu tiên và hướng dẫn không phân loại
Created by
Haebom
Tác giả
Shehzeen Hussain, Paarth Neekhara, Xuesong Yang, Edresson Casanova, Subhankar Ghosh, Mikyas T. Desta, Roy Fejgin, Rafael Valle, Jason Li
Phác thảo
Các mô hình tạo mã thông báo giọng nói tự động hồi quy tạo ra giọng nói đa dạng và tự nhiên, nhưng tính không kiểm soát của chúng gây ra các vấn đề như ảo giác và phát âm không mong muốn. Koel-TTS là một mô hình TTS Transformer mã hóa-giải mã cải tiến, giải quyết các vấn đề này bằng cách kết hợp các kỹ thuật căn chỉnh sở thích với các mô hình nhận dạng giọng nói tự động và xác thực người nói. Mô hình này cũng cải thiện hơn nữa khả năng tổng hợp bám sát bản ghi và âm thanh người nói tham chiếu bằng cách kết hợp hướng dẫn không phân loại. Kết quả thực nghiệm cho thấy những tối ưu hóa này cải thiện đáng kể độ tương đồng, độ rõ ràng và độ tự nhiên của giọng nói tổng hợp, vượt trội hơn các mô hình TTS hiện đại mặc dù được đào tạo trên một tập dữ liệu tương đối nhỏ.
Takeaways, Limitations
•
Takeaways:
◦
Chúng tôi cải thiện đáng kể khả năng kiểm soát các mô hình TTS và chất lượng giọng nói tổng hợp thông qua kỹ thuật sắp xếp theo sở thích và kỹ thuật hướng dẫn không phân loại sử dụng mô hình nhận dạng giọng nói tự động và xác thực người nói.
◦
Chúng tôi chứng minh hiệu quả dữ liệu bằng cách đạt được hiệu suất tiên tiến ngay cả với các tập dữ liệu nhỏ.
◦
Độ Tương đồng, độ rõ ràng và độ tự nhiên của người nói mục tiêu đều được cải thiện.
•
Limitations:
◦
Vì quy mô của tập dữ liệu được sử dụng không được nêu rõ ràng nên có thể không có đánh giá hiệu suất so với các tập dữ liệu lớn khác.
◦
Cần phải phân tích chi tiết về quy mô cụ thể của "bộ dữ liệu nhỏ" được đề cập trong bài báo và sự khác biệt của nó so với các mô hình khác.
◦
Thiếu phân tích về việc liệu có sự thiên vị đối với ngôn ngữ hoặc người nói cụ thể hay không.