Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

EmoVoice: Mô hình chuyển văn bản thành giọng nói cảm xúc dựa trên LLM với tính năng nhắc văn bản tự do

Created by
  • Haebom

Tác giả

Guanrou Yang, Chen Yang, Qian Chen, Ziyang Ma, Wenxi Chen, Wen Wang, Tianrui Wang, Yifan Yang, Zhikang Niu, Wenrui Liu, Fan Yu, Zhihao Du, Zhifu Gao, ShiLiang Zhang, Xie Chen

Phác thảo

Bài báo này đề xuất EmoVoice, một mô hình TTS mới có khả năng kiểm soát biểu hiện cảm xúc. EmoVoice tận dụng mô hình ngôn ngữ quy mô lớn (LLM) để cho phép kiểm soát cảm xúc ngôn ngữ tự nhiên một cách tự do và chi tiết. Hơn nữa, lấy cảm hứng từ các kỹ thuật Chain of Thought (CoT) và Chain of Modality (CoM), nó tăng cường tính nhất quán của nội dung bằng cách thiết kế một biến thể tăng cường âm vị, xuất ra các mã thông báo âm vị và mã thông báo âm thanh song song. Chúng tôi cũng giới thiệu EmoVoice-DB, một bộ dữ liệu cảm xúc tiếng Anh chất lượng cao, dài 40 giờ, chứa lời nói biểu cảm, nhãn cảm xúc chi tiết và mô tả ngôn ngữ tự nhiên. EmoVoice đạt hiệu suất tiên tiến trên bộ kiểm tra EmoVoice-DB tiếng Anh chỉ sử dụng dữ liệu đào tạo tổng hợp và trên bộ kiểm tra Secap tiếng Trung bằng dữ liệu của riêng chúng tôi. Hơn nữa, chúng tôi nghiên cứu độ tin cậy của các số liệu đánh giá cảm xúc hiện có và sự phù hợp của chúng với sở thích nhận thức của con người, đồng thời đánh giá lời nói cảm xúc bằng GPT-4o-audio và Gemini, hai LLM đa phương thức tiên tiến. Bộ dữ liệu, mã, điểm kiểm tra và mẫu demo đều có sẵn trên GitHub.

Takeaways, Limitations

Takeaways:
Chúng tôi đề xuất EmoVoice, một mô hình TTS có khả năng kiểm soát cảm xúc bằng ngôn ngữ tự nhiên chi tiết và miễn phí bằng LLM.
Cải thiện tính nhất quán của nội dung thông qua thiết kế chuyển đổi tăng cường âm vị.
Đã Phát hành bộ dữ liệu cảm xúc tiếng Anh chất lượng cao EmoVoice-DB.
ĐạT được hiệu suất tiên tiến chỉ với dữ liệu tổng hợp.
Một nghiên cứu về độ tin cậy của các chỉ số đánh giá cảm xúc hiện có và sự phù hợp của chúng với sở thích nhận thức của con người.
ĐáNh giá lời nói cảm xúc bằng phương pháp LLM đa phương thức hiện đại.
ĐảM bảo khả năng tái tạo nghiên cứu thông qua quyền truy cập mở vào mã, tập dữ liệu, điểm kiểm tra và mẫu demo.
Limitations:
EmoVoice-DB tập trung vào tiếng Anh, điều này có thể hạn chế khả năng áp dụng sang các ngôn ngữ khác.
Vì chỉ được đào tạo bằng dữ liệu tổng hợp nên cần có các nghiên cứu so sánh với kết quả đào tạo sử dụng dữ liệu giọng nói thực.
Cần nghiên cứu thêm về những hạn chế của các chỉ số đánh giá cảm xúc hiện có và phát triển các phương pháp đánh giá tinh vi hơn.
Cần phải xác minh độ tin cậy của kết quả đánh giá LLM như GPT-4o-audio và Gemini.
👍