Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo. La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro. Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.
IndexTTS2: Un avance en la conversión de texto a voz autorregresiva de cero disparos, emocionalmente expresiva y con control de duración.
Created by
Haebom
Autor
Siyi Zhou, Yiquan Zhou, Yi He, Xun Zhou, Jinchao Wang, Wei Deng, Jingchen Shu
Describir
IndexTTS2 es un modelo propuesto para superar las limitaciones de los modelos de texto a voz (TTS) autorregresivos a gran escala existentes, que ofrecen una excelente naturalidad pero presentan dificultades para controlar la duración. Permite un control preciso de la duración del habla mediante la especificación explícita del recuento de tokens y un modo de generación libre con un recuento de tokens no especificado. También permite el control independiente del timbre y la emoción al separar la expresión emocional del género del hablante. Utiliza representaciones latentes GPT para mejorar la inteligibilidad del habla altamente emotiva, y un mecanismo de instrucción suave basado en el ajuste fino de Qwen3 facilita el control de las emociones. Los resultados experimentales en diversos conjuntos de datos demuestran que IndexTTS2 supera a los modelos TTS de disparo cero de última generación en términos de tasa de error de palabras, similitud entre hablantes y fidelidad emocional.
Takeaways, Limitations
•
Takeaways:
◦
Solución del problema del control preciso de la duración del habla en modelos TTS basados en autorregresiones.
◦
Control independiente del tono y la emoción.
◦
Tono de alta precisión y reproducción emocional en un entorno de cero disparos
◦
Mejorar la claridad del habla emocionalmente expresiva mediante el uso de expresiones latentes GPT.
◦
Mayor comodidad en el control emocional mediante mecanismos de instrucción suave
◦
Lograr un rendimiento de vanguardia en una variedad de métricas de evaluación
•
Limitations:
◦
Limitations no se menciona explícitamente en el artículo. Podrían requerirse más experimentos o validación del rendimiento con diversos conjuntos de datos.