Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo. La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro. Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.
FMSD-TTS: Síntesis de texto a voz multilocutor y multidialecto de pocos disparos para la generación de conjuntos de datos de voz U-Tsang, Amdo y Kham
Created by
Haebom
Autor
Yutong Liu, Ziyue Zhang, Ban Ma-bao, Yuqing Cai, Yongbin Yu, Renzeng Duojie, Xiangxiang Wang, Fan Gao, Cheng Huang, Nyima Tashi
Describir
FMSD-TTS es un marco de síntesis de voz de varios hablantes y dialectos, propuesto para abordar el desafío de las lenguas con recursos limitados que carecen de corpus de habla paralela para los tres dialectos tibetanos principales (U-Tsang, Amdo y Kham). Sintetiza el habla en dialectos paralelos utilizando audio de referencia limitado y etiquetas dialectales explícitas. Captura sutiles variaciones acústicas y lingüísticas entre dialectos, preservando la identidad del hablante mediante un módulo de fusión hablante-dialecto y una red de enrutamiento dinámico específica para cada dialecto (DSDR-Net). Las evaluaciones objetivas y subjetivas demuestran mejoras significativas en la expresividad dialectal y la similitud entre hablantes, en comparación con los modelos de referencia. Además, la calidad y la usabilidad del habla sintetizada se verifican mediante una compleja tarea de conversión de habla a habla. Entre las contribuciones clave se incluyen la implementación de un sistema de síntesis de voz multidialecto tibetano de varios hablantes, la publicación de un corpus de habla tibetana sintética a gran escala generado por FMSD-TTS y una herramienta de evaluación de código abierto para la evaluación estandarizada de la similitud entre hablantes, la consistencia dialectal y la calidad del audio.
Takeaways, Limitations
•
Takeaways:
◦
Una solución eficaz al problema de la síntesis de voz multidialectal en tibetano, un idioma con escasos recursos.
◦
Contribuir a la investigación futura mediante la publicación de un corpus de habla tibetana sintética a gran escala generado a través de FMSD-TTS.
◦
Contribuir a la estandarización y el avance de la investigación sobre síntesis de voz multidialecto proporcionando herramientas de evaluación de código abierto.
◦
Conseguir un alto rendimiento con menos datos mediante el aprendizaje de unos pocos disparos.
•
Limitations:
◦
La información disponible actualmente es insuficiente para proporcionar detalles específicos sobre las limitaciones de rendimiento del FMSD-TTS.
◦
Se necesitan más investigaciones para determinar la generalización a otros idiomas con bajos recursos.
◦
Es necesario un análisis más profundo de la naturalidad de las voces sintéticas.