Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

FMSD-TTS: Tổng hợp văn bản thành giọng nói đa phương ngữ nhiều người nói ít lần để tạo bộ dữ liệu giọng nói \"U-Tsang, Amdo và Kham

Created by
  • Haebom

Tác giả

Yutong Liu, Ziyue Zhang, Ban Ma-bao, Yuqing Cai, Yongbin Yu, Renzeng Duojie, Xiangxiang Wang, Fan Gao, Cheng Huang, Nyima Tashi

Phác thảo

FMSD-TTS là một khuôn khổ chuyển đổi văn bản thành giọng nói đa phương ngữ, nhiều người nói, nhiều phương ngữ, được đề xuất để giải quyết thách thức của các ngôn ngữ tài nguyên thấp thiếu ngữ liệu song song cho ba phương ngữ chính của tiếng Tây Tạng (U-Tsang, Amdo và Kham). Nó tổng hợp giọng nói phương ngữ song song bằng cách sử dụng âm thanh tham chiếu hạn chế và nhãn phương ngữ rõ ràng. Nó nắm bắt các biến thể âm thanh và ngôn ngữ tinh tế giữa các phương ngữ trong khi vẫn giữ nguyên bản sắc của người nói thông qua mô-đun hợp nhất người nói-phương ngữ và mạng định tuyến động dành riêng cho phương ngữ (DSDR-Net). Các đánh giá khách quan và chủ quan cho thấy những cải thiện đáng kể về khả năng biểu đạt phương ngữ và độ tương đồng của người nói so với các mô hình cơ sở. Hơn nữa, chất lượng và khả năng sử dụng của giọng nói tổng hợp được xác minh thông qua một nhiệm vụ chuyển đổi phương ngữ giọng nói thành giọng nói đầy thách thức. Những đóng góp chính bao gồm việc triển khai hệ thống tổng hợp giọng nói đa phương ngữ tiếng Tây Tạng ít lần, phát hành ngữ liệu giọng nói tiếng Tây Tạng tổng hợp quy mô lớn do FMSD-TTS tạo ra và một công cụ đánh giá nguồn mở để đánh giá chuẩn hóa độ tương đồng của người nói, tính nhất quán của phương ngữ và chất lượng âm thanh.

Takeaways, Limitations

Takeaways:
Một giải pháp hiệu quả cho vấn đề tổng hợp giọng nói đa phương ngữ trong tiếng Tây Tạng, một ngôn ngữ có ít tài nguyên.
ĐóNg góp vào nghiên cứu trong tương lai bằng cách phát hành kho dữ liệu tiếng Tây Tạng tổng hợp quy mô lớn được tạo ra thông qua FMSD-TTS.
Góp phần chuẩn hóa và phát triển nghiên cứu tổng hợp giọng nói đa phương ngữ bằng cách cung cấp các công cụ đánh giá nguồn mở.
ĐạT được hiệu suất cao với ít dữ liệu hơn thông qua phương pháp học ít lần.
Limitations:
Thông tin hiện có không đủ để cung cấp thông tin chi tiết cụ thể về những hạn chế về hiệu suất của FMSD-TTS.
Cần nghiên cứu thêm để xác định khả năng tổng quát hóa cho các ngôn ngữ có ít tài nguyên khác.
Cần có một phân tích sâu hơn về tính tự nhiên của giọng nói tổng hợp.
👍