Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Equidad en la síntesis del habla disártrica: comprensión del sesgo intrínseco en la clonación del habla disártrica mediante F5-TTS

Created by
  • Haebom

Autor

Anuprabha M, Krishna Gurugubelli, Anil Kumar Vuppala

Describir

Este artículo se centra en el desarrollo de tecnologías de asistencia para el habla en personas con disartria, lo cual supone un reto debido a la escasez de datos. Los avances recientes en la síntesis neuronal del habla, que utilizan técnicas de replicación de voz de disparo cero, facilitan la generación de voces sintéticas para la ampliación de datos, pero pueden introducir sesgos en el habla en personas con disartria. Utilizando el conjunto de datos TORGO, este estudio investiga la eficacia del F5-TTS de última generación para replicar el habla en personas con disartria en términos de inteligibilidad, similitud entre hablantes y preservación de la prosodia. Además, se utilizan métricas de equidad, como el impacto injusto y la diferencia de paridad, para evaluar el desequilibrio entre los niveles de gravedad de la disartria.

Takeaways, Limitations

Takeaways: Observamos que la F5-TTS mostró un fuerte sesgo hacia la inteligibilidad del habla sobre la preservación del hablante y la prosodia en la síntesis de voz para la disartria. Este estudio podría contribuir al desarrollo de tecnologías de voz más completas al integrar la síntesis de voz para la disartria con equidad.
Limitations: El Limitations específico no se mencionó explícitamente en el artículo. Sin embargo, podría requerirse un análisis más profundo sobre la dependencia de un conjunto de datos específico (TORGO) y el rendimiento del modelo F5-TTS. Además, no se ha analizado suficientemente el alcance y las limitaciones del análisis de sesgo mediante métricas de imparcialidad.
👍