Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Koel-TTS: Mejora de la generación de voz basada en LLM con alineación de preferencias y guía sin clasificador

Created by
  • Haebom

Autor

Shehzeen Hussain, Paarth Neekhara, Xuesong Yang, Edresson Casanova, Subhankar Ghosh, Mikyas T. Desta, Roy Fejgin, Rafael Valle, Jason Li

Describir

Los modelos autorregresivos de generación de tokens de voz producen un habla diversa y natural, pero su incontrolabilidad causa problemas como alucinaciones y vocalizaciones no deseadas. Koel-TTS es un modelo de TTS Transformer de codificador-decodificador mejorado que aborda estos problemas mediante la incorporación de técnicas de alineación de preferencias con modelos de reconocimiento automático de voz y autenticación de hablantes. Además, mejora la adherencia de la síntesis a las transcripciones y al audio del hablante de referencia mediante la incorporación de guía sin clasificador. Los resultados experimentales muestran que estas optimizaciones mejoran significativamente la similitud, la inteligibilidad y la naturalidad del habla sintetizada con el hablante objetivo, superando a los modelos de TTS de vanguardia existentes, a pesar de haberse entrenado con un conjunto de datos relativamente pequeño.

Takeaways, Limitations

Takeaways:
Mejoramos significativamente la controlabilidad de los modelos TTS y la calidad de las voces sintetizadas a través de una técnica de clasificación de preferencias y una técnica de guía sin clasificador que utiliza modelos de reconocimiento automático de voz y autenticación de hablantes.
Demostramos la eficiencia de los datos logrando un rendimiento de última generación incluso con conjuntos de datos pequeños.
Se mejoraron la similitud, la claridad y la naturalidad del hablante objetivo.
Limitations:
Dado que el tamaño del conjunto de datos utilizado no se indica explícitamente, puede haber una falta de evaluación del rendimiento en comparación con otros conjuntos de datos grandes.
Es necesario un análisis detallado del tamaño específico del “pequeño conjunto de datos” mencionado en el artículo y cómo se diferencia de otros modelos.
Falta análisis sobre si hay sesgo contra idiomas o hablantes específicos.
👍