Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

FMSD-TTS: Síntesis de texto a voz multilocutor y multidialecto de pocos disparos para la generación de conjuntos de datos de voz U-Tsang, Amdo y Kham

Created by
  • Haebom

Autor

Yutong Liu, Ziyue Zhang, Ban Ma-bao, Yuqing Cai, Yongbin Yu, Renzeng Duojie, Xiangxiang Wang, Fan Gao, Cheng Huang, Nyima Tashi

Describir

FMSD-TTS es un marco de síntesis de voz de varios hablantes y dialectos, propuesto para abordar el desafío de las lenguas con recursos limitados que carecen de corpus de habla paralela para los tres dialectos tibetanos principales (U-Tsang, Amdo y Kham). Sintetiza el habla en dialectos paralelos utilizando audio de referencia limitado y etiquetas dialectales explícitas. Captura sutiles variaciones acústicas y lingüísticas entre dialectos, preservando la identidad del hablante mediante un módulo de fusión hablante-dialecto y una red de enrutamiento dinámico específica para cada dialecto (DSDR-Net). Las evaluaciones objetivas y subjetivas demuestran mejoras significativas en la expresividad dialectal y la similitud entre hablantes, en comparación con los modelos de referencia. Además, la calidad y la usabilidad del habla sintetizada se verifican mediante una compleja tarea de conversión de habla a habla. Entre las contribuciones clave se incluyen la implementación de un sistema de síntesis de voz multidialecto tibetano de varios hablantes, la publicación de un corpus de habla tibetana sintética a gran escala generado por FMSD-TTS y una herramienta de evaluación de código abierto para la evaluación estandarizada de la similitud entre hablantes, la consistencia dialectal y la calidad del audio.

Takeaways, Limitations

Takeaways:
Una solución eficaz al problema de la síntesis de voz multidialectal en tibetano, un idioma con escasos recursos.
Contribuir a la investigación futura mediante la publicación de un corpus de habla tibetana sintética a gran escala generado a través de FMSD-TTS.
Contribuir a la estandarización y el avance de la investigación sobre síntesis de voz multidialecto proporcionando herramientas de evaluación de código abierto.
Conseguir un alto rendimiento con menos datos mediante el aprendizaje de unos pocos disparos.
Limitations:
La información disponible actualmente es insuficiente para proporcionar detalles específicos sobre las limitaciones de rendimiento del FMSD-TTS.
Se necesitan más investigaciones para determinar la generalización a otros idiomas con bajos recursos.
Es necesario un análisis más profundo de la naturalidad de las voces sintéticas.
👍