Bài báo này đề xuất EmoVoice, một mô hình TTS mới có khả năng kiểm soát biểu hiện cảm xúc. EmoVoice tận dụng mô hình ngôn ngữ quy mô lớn (LLM) để cho phép kiểm soát cảm xúc ngôn ngữ tự nhiên một cách tự do và chi tiết. Hơn nữa, lấy cảm hứng từ các kỹ thuật Chain of Thought (CoT) và Chain of Modality (CoM), nó tăng cường tính nhất quán của nội dung bằng cách thiết kế một biến thể tăng cường âm vị, xuất ra các mã thông báo âm vị và mã thông báo âm thanh song song. Chúng tôi cũng giới thiệu EmoVoice-DB, một bộ dữ liệu cảm xúc tiếng Anh chất lượng cao, dài 40 giờ, chứa lời nói biểu cảm, nhãn cảm xúc chi tiết và mô tả ngôn ngữ tự nhiên. EmoVoice đạt hiệu suất tiên tiến trên bộ kiểm tra EmoVoice-DB tiếng Anh chỉ sử dụng dữ liệu đào tạo tổng hợp và trên bộ kiểm tra Secap tiếng Trung bằng dữ liệu của riêng chúng tôi. Hơn nữa, chúng tôi nghiên cứu độ tin cậy của các số liệu đánh giá cảm xúc hiện có và sự phù hợp của chúng với sở thích nhận thức của con người, đồng thời đánh giá lời nói cảm xúc bằng GPT-4o-audio và Gemini, hai LLM đa phương thức tiên tiến. Bộ dữ liệu, mã, điểm kiểm tra và mẫu demo đều có sẵn trên GitHub.