Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

EmoSteer-TTS: Texto a voz preciso y sin entrenamiento, controlable por emociones mediante control de activación

Created by
  • Haebom

Autor

Tianxin Xie, Shan Yang, Chenxing Li, Dong Yu, Li Liu

Describir

Este artículo destaca el control emocional incompleto y limitado de los sistemas de texto a voz (TTS) existentes y propone EmoSteer-TTS, un novedoso método que permite un control preciso de las emociones de la voz (transformación, interpolación y eliminación) sin entrenamiento. EmoSteer-TTS altera eficazmente el tono emocional del habla sintetizada modificando las activaciones internas de un modelo TTS basado en la coincidencia de flujo. Desarrollamos un algoritmo eficiente y sin entrenamiento que incluye la extracción de activaciones, la recuperación de tokens emocionales y el control en tiempo de inferencia, haciéndolo compatible con diversos modelos preentrenados. Mediante la construcción de un conjunto de datos de habla emocional de diversos hablantes, derivamos vectores de control efectivos. Los resultados experimentales demuestran un control preciso, interpretable y continuo de las emociones de la voz que supera el rendimiento de los sistemas de última generación (SOTA). Este es el primer método que logra un control emocional continuo y preciso sin entrenamiento.

Takeaways, Limitations

Takeaways:
Se presenta un método novedoso que permite un control preciso y continuo de las emociones vocales sin entrenamiento.
Desarrollo de un algoritmo eficiente que pueda integrarse fácilmente en los modelos TTS existentes.
Demostró un rendimiento excelente en varios modelos TTS entrenados previamente.
Proporciona un control emocional interpretable e intuitivo.
Limitations:
La efectividad del método propuesto puede depender del tipo específico de modelo TTS (basado en coincidencia de flujo).
Se necesita más investigación sobre el desempeño de la generalización en una variedad de expresiones emocionales.
El rendimiento puede verse afectado por el alcance y la calidad del conjunto de datos del discurso emocional construido.
Se necesita una evaluación más profunda de la robustez y el rendimiento de generalización en aplicaciones del mundo real.
👍