Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

ĐIều gì tạo nên một công cụ phân tích giọng nói tốt cho việc tạo ra giọng nói tập trung vào LLM? Một nghiên cứu có hệ thống

Created by
  • Haebom

Tác giả

Xiaoran Fan, Zhichao Sun, Yangfan Gao, Jingfei Xiong, Hang Yan, Yifei Cao, Jiajun Sun, Shuo Li, Zhihao Zhang, Zhiheng Xi, Yuhao Chu, Senjie Jin, Changhao Jiang, Junjie Ye, Ming Zhang, Rui Zheng, Zhenhua Han, Yunke Zhang, Demei Yan, Shaokang Dong, Tao Ji, Tao Gui, Qi Zhang, Huyềnjing Huang

Phác thảo

Bài báo này nghiên cứu một cách có hệ thống vai trò của thiết kế tokenizer giọng nói trong mô hình ngôn ngữ nói (SLM) và đề xuất những cải tiến cho việc căn chỉnh chéo hiệu quả giữa giọng nói và văn bản và tạo ra giọng nói chất lượng cao. Bằng cách thêm mô hình đầu giọng nói và người nói vào SLM tập trung vào LLM và so sánh và phân tích các tokenizer giọng nói liên hợp, bán liên hợp và hoàn toàn không liên hợp, chúng tôi thấy rằng tokenization không liên hợp cải thiện đáng kể chất lượng căn chỉnh và tổng hợp. Hơn nữa, để giải quyết sự không khớp mật độ thông tin giữa giọng nói và văn bản, chúng tôi giới thiệu dự đoán đa token (MTP), giúp cải thiện tốc độ giải mã lên đến 12 lần và giảm đáng kể tỷ lệ lỗi từ từ 6,07% xuống 3,01%. Cuối cùng, chúng tôi đề xuất một mô hình tạo nhận biết người nói và giới thiệu RoleTriviaQA, một chuẩn mực QA kiến thức nhập vai quy mô lớn với nhiều danh tính người nói khác nhau, để cải thiện khả năng hiểu kiến thức và tính nhất quán của người nói.

Takeaways, Limitations

Takeaways:
Chúng tôi chứng minh rằng bộ phân tích giọng nói không ràng buộc có hiệu quả trong việc cải thiện chất lượng tổng hợp và căn chỉnh giọng nói thành văn bản của SLM.
Cải thiện đáng kể tốc độ giải mã của SLM và giảm tỷ lệ lỗi từ thông qua dự đoán đa mã thông báo (MTP).
Cải thiện khả năng hiểu kiến thức và tính nhất quán của người nói thông qua mô hình tạo nhận dạng người nói và chuẩn mực RoleTriviaQA.
Limitations:
Cần phải xác nhận thêm về quy mô và tính đa dạng của chuẩn mực RoleTriviaQA.
Cần đánh giá hiệu suất tổng quát của phương pháp đề xuất trên các kiến trúc và tập dữ liệu SLM khác.
Cần phải phân tích sâu hơn về độ phức tạp tính toán và mức sử dụng bộ nhớ của MTP.
👍