Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

EmoSteer-TTS: Chuyển văn bản thành giọng nói có thể điều khiển cảm xúc chi tiết và không cần đào tạo thông qua điều khiển kích hoạt

Created by
  • Haebom

Tác giả

Tianxin Xie, Shan Yang, Chenxing Li, Dong Yu, Li Liu

Phác thảo

Bài báo này nêu bật khả năng kiểm soát cảm xúc còn hạn chế và chưa hoàn thiện của các hệ thống Chuyển văn bản thành giọng nói (TTS) hiện có và đề xuất EmoSteer-TTS, một phương pháp mới cho phép kiểm soát cảm xúc giọng nói tinh chỉnh (biến đổi, nội suy và xóa) mà không cần đào tạo. EmoSteer-TTS thay đổi hiệu quả tông cảm xúc của giọng nói tổng hợp bằng cách sửa đổi các kích hoạt nội bộ của mô hình TTS dựa trên khớp luồng. Chúng tôi phát triển một thuật toán hiệu quả, không cần đào tạo bao gồm trích xuất kích hoạt, truy xuất mã thông báo cảm xúc và điều khiển thời gian suy luận, khiến nó tương thích với nhiều mô hình được đào tạo trước. Bằng cách xây dựng một tập dữ liệu giọng nói cảm xúc từ nhiều người nói khác nhau, chúng tôi thu được các vectơ điều khiển hiệu quả. Kết quả thử nghiệm chứng minh khả năng kiểm soát cảm xúc giọng nói tinh chỉnh, có thể diễn giải và liên tục vượt trội hơn hiệu suất hiện đại (SOTA) hiện có. Đây là phương pháp đầu tiên đạt được khả năng kiểm soát cảm xúc liên tục tinh chỉnh mà không cần đào tạo.

Takeaways, Limitations

Takeaways:
Một phương pháp mới được trình bày cho phép kiểm soát cảm xúc giọng nói liên tục một cách chính xác mà không cần đào tạo.
Phát triển một thuật toán hiệu quả có thể dễ dàng tích hợp vào các mô hình TTS hiện có.
Thể hiện hiệu suất tuyệt vời trên nhiều mô hình TTS được đào tạo trước.
Cung cấp khả năng kiểm soát cảm xúc trực quan và dễ hiểu.
Limitations:
Hiệu quả của phương pháp đề xuất có thể phụ thuộc vào loại mô hình TTS cụ thể (dựa trên sự phù hợp lưu lượng).
Cần có thêm nghiên cứu về hiệu suất khái quát hóa trên nhiều biểu hiện cảm xúc khác nhau.
Hiệu suất có thể bị ảnh hưởng bởi phạm vi và chất lượng của tập dữ liệu lời nói cảm xúc được xây dựng.
Cần đánh giá thêm về tính mạnh mẽ và hiệu suất tổng quát trong các ứng dụng thực tế.
👍