Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

¿Qué hace que un tokenizador de voz sea eficaz para la generación de voz centrada en LLM? Un estudio sistemático.

Created by
  • Haebom

Autor

Xiaoran Fan, Zhichao Sun, Yangfan Gao, Jingfei Xiong, Hang Yan, Yifei Cao, Jiajun Sun, Shuo Li, Zhihao Zhang, Zhiheng Xi, Yuhao Zhou, Senjie Jin, Changhao Jiang, Junjie Ye, Ming Zhang, Rui Zheng, Zhenhua Han, Yunke Zhang, Demei Yan, Shaokang Dong, Tao Ji, Tao Gui, Qi Zhang, Xuanjing Huang

Describir

Este artículo investiga sistemáticamente el papel del diseño de tokenizadores de voz en un modelo de lenguaje hablado (SLM) y propone mejoras para una alineación intermodal efectiva entre voz y texto, así como para la generación de voz de alta calidad. Al incorporar el modelado de la cabeza de habla y del hablante al SLM centrado en LLM y comparar y analizar tokenizadores de voz conjugados, semiconjugados y completamente no conjugados, observamos que la tokenización no conjugada mejora significativamente la alineación y la calidad de la síntesis. Además, para abordar la discrepancia en la densidad de información entre voz y texto, introducimos la predicción multitoken (MTP), que mejora la velocidad de decodificación hasta 12 veces y reduce significativamente la tasa de error de palabras del 6,07 % al 3,01 %. Finalmente, proponemos un paradigma de generación consciente del hablante e introducimos RoleTriviaQA, un benchmark de control de calidad de conocimiento basado en juegos de rol a gran escala con diversas identidades de hablantes, para mejorar la comprensión del conocimiento y la consistencia del hablante.

Takeaways, Limitations

Takeaways:
Demostramos que un tokenizador de voz no vinculante es eficaz para mejorar la alineación de voz a texto y la calidad de síntesis de SLM.
Mejora significativamente la velocidad de decodificación de SLM y reduce la tasa de error de palabras a través de la predicción de múltiples tokens (MTP).
Mejorar la comprensión del conocimiento y la consistencia del hablante a través de paradigmas de generación de reconocimiento de hablantes y el punto de referencia RoleTriviaQA.
Limitations:
Se necesita una mayor validación de la escala y diversidad del benchmark RoleTriviaQA.
Es necesario evaluar el rendimiento de generalización del método propuesto en otras arquitecturas y conjuntos de datos SLM.
Se necesita un análisis más profundo de la complejidad computacional y el uso de memoria de MTP.
👍