Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

IndexTTS2: Un avance en la conversión de texto a voz autorregresiva de cero disparos, emocionalmente expresiva y con control de duración.

Created by
  • Haebom

Autor

Siyi Zhou, Yiquan Zhou, Yi He, Xun Zhou, Jinchao Wang, Wei Deng, Jingchen Shu

Describir

IndexTTS2 es un modelo propuesto para superar las limitaciones de los modelos de texto a voz (TTS) autorregresivos a gran escala existentes, que ofrecen una excelente naturalidad pero presentan dificultades para controlar la duración. Permite un control preciso de la duración del habla mediante la especificación explícita del recuento de tokens y un modo de generación libre con un recuento de tokens no especificado. También permite el control independiente del timbre y la emoción al separar la expresión emocional del género del hablante. Utiliza representaciones latentes GPT para mejorar la inteligibilidad del habla altamente emotiva, y un mecanismo de instrucción suave basado en el ajuste fino de Qwen3 facilita el control de las emociones. Los resultados experimentales en diversos conjuntos de datos demuestran que IndexTTS2 supera a los modelos TTS de disparo cero de última generación en términos de tasa de error de palabras, similitud entre hablantes y fidelidad emocional.

Takeaways, Limitations

Takeaways:
Solución del problema del control preciso de la duración del habla en modelos TTS basados ​​en autorregresiones.
Control independiente del tono y la emoción.
Tono de alta precisión y reproducción emocional en un entorno de cero disparos
Mejorar la claridad del habla emocionalmente expresiva mediante el uso de expresiones latentes GPT.
Mayor comodidad en el control emocional mediante mecanismos de instrucción suave
Lograr un rendimiento de vanguardia en una variedad de métricas de evaluación
Limitations:
Limitations no se menciona explícitamente en el artículo. Podrían requerirse más experimentos o validación del rendimiento con diversos conjuntos de datos.
👍