Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

IndexTTS2: Một bước đột phá trong công nghệ chuyển văn bản thành giọng nói tự động hồi quy có kiểm soát thời lượng và biểu đạt cảm xúc

Created by
  • Haebom

Tác giả

Chu Tư Nghị, Chu Nhất Tuyền, Dịch Hà, Tấn Châu, Jinchao Wang, Wei Deng, Jingchen Shu

Phác thảo

IndexTTS2 là một mô hình được đề xuất để khắc phục những hạn chế của các mô hình chuyển văn bản thành giọng nói (TTS) quy mô lớn dựa trên hồi quy tự động hiện có, vốn mang lại độ tự nhiên tuyệt vời nhưng lại gặp khó khăn trong việc kiểm soát thời lượng. Mô hình này hỗ trợ kiểm soát thời lượng giọng nói chính xác thông qua việc chỉ định số lượng mã thông báo rõ ràng và chế độ tạo tự do với số lượng mã thông báo không xác định. Mô hình cũng cho phép kiểm soát độc lập âm sắc và cảm xúc bằng cách tách biệt biểu cảm cảm xúc và giới tính của người nói. Mô hình sử dụng các biểu diễn tiềm ẩn GPT để tăng cường khả năng hiểu được giọng nói có nhiều cảm xúc, và cơ chế hướng dẫn mềm dựa trên tinh chỉnh Qwen3 giúp tăng cường sự tiện lợi của việc kiểm soát cảm xúc. Kết quả thử nghiệm trên nhiều tập dữ liệu khác nhau chứng minh rằng IndexTTS2 vượt trội hơn các mô hình TTS zero-shot hiện đại về tỷ lệ lỗi từ, độ tương đồng của người nói và độ trung thực về cảm xúc.

Takeaways, Limitations

Takeaways:
Giải quyết vấn đề kiểm soát thời lượng giọng nói chính xác trong các mô hình TTS dựa trên hồi quy tự động.
Kiểm soát độc lập giọng điệu và cảm xúc
ÂM thanh có độ chính xác cao và tái tạo cảm xúc trong môi trường không có cú đánh nào
Cải thiện độ rõ ràng của lời nói biểu cảm thông qua việc sử dụng biểu hiện tiềm ẩn GPT.
Tăng cường sự tiện lợi trong việc kiểm soát cảm xúc thông qua cơ chế hướng dẫn mềm dẻo
ĐạT được hiệu suất tiên tiến trên nhiều chỉ số đánh giá khác nhau
Limitations:
Limitations không được đề cập rõ ràng trong bài báo. Có thể cần thêm các thí nghiệm hoặc xác thực hiệu suất bằng nhiều bộ dữ liệu khác nhau.
👍