Bài báo này tập trung vào việc phát triển các công nghệ hỗ trợ cho chứng nói khó, một vấn đề đang gặp nhiều thách thức do dữ liệu hạn chế. Những tiến bộ gần đây trong tổng hợp giọng nói thần kinh sử dụng kỹ thuật sao chép giọng nói zero-shot (không cần phát âm) giúp tạo ra giọng nói tổng hợp để tăng cường dữ liệu, nhưng có thể gây ra sai lệch trong chứng nói khó. Sử dụng bộ dữ liệu TORGO, nghiên cứu này khảo sát hiệu quả của F5-TTS tiên tiến trong việc sao chép lời nói khó về mặt độ dễ hiểu, độ tương đồng của người nói và khả năng bảo toàn ngữ điệu. Hơn nữa, các chỉ số công bằng như tác động không công bằng và chênh lệch tương đương được sử dụng để đánh giá sự mất cân bằng giữa các mức độ nghiêm trọng của chứng nói khó.