Bài báo này nêu bật khả năng kiểm soát cảm xúc còn hạn chế và chưa hoàn thiện của các hệ thống Chuyển văn bản thành giọng nói (TTS) hiện có và đề xuất EmoSteer-TTS, một phương pháp mới cho phép kiểm soát cảm xúc giọng nói tinh chỉnh (biến đổi, nội suy và xóa) mà không cần đào tạo. EmoSteer-TTS thay đổi hiệu quả tông cảm xúc của giọng nói tổng hợp bằng cách sửa đổi các kích hoạt nội bộ của mô hình TTS dựa trên khớp luồng. Chúng tôi phát triển một thuật toán hiệu quả, không cần đào tạo bao gồm trích xuất kích hoạt, truy xuất mã thông báo cảm xúc và điều khiển thời gian suy luận, khiến nó tương thích với nhiều mô hình được đào tạo trước. Bằng cách xây dựng một tập dữ liệu giọng nói cảm xúc từ nhiều người nói khác nhau, chúng tôi thu được các vectơ điều khiển hiệu quả. Kết quả thử nghiệm chứng minh khả năng kiểm soát cảm xúc giọng nói tinh chỉnh, có thể diễn giải và liên tục vượt trội hơn hiệu suất hiện đại (SOTA) hiện có. Đây là phương pháp đầu tiên đạt được khả năng kiểm soát cảm xúc liên tục tinh chỉnh mà không cần đào tạo.