Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Informe técnico de VibeVoice

Created by
  • Haebom

Autor

Zhiliang Peng, Jianwei Yu, Wenhui Wang, Yaoyao Chang, Yutao Sun, Li Dong, Yi Zhu, Weijiang Xu, Hangbo Bao, Zehua Wang, Shaohan Huang, Yan Xia, Furu Wei

Describir

VibeVoice es un novedoso modelo que sintetiza el habla de larga duración de múltiples hablantes mediante la difusión de siguiente token. Aprovecha la difusión de siguiente token, un método unificado que genera vectores latentes autorregresivamente para modelar datos continuos. Al introducir un novedoso tokenizador de habla continua que ofrece una compresión de datos 80 veces superior a la de los modelos Encodec existentes, VibeVoice mejora significativamente la eficiencia computacional del procesamiento de secuencias de larga duración, manteniendo al mismo tiempo la fidelidad del audio. Como resultado, VibeVoice puede sintetizar habla de larga duración (ventana de contexto de 64K) de hasta cuatro hablantes, logrando una atmósfera conversacional realista que supera a los modelos de conversación comerciales y de código abierto.

Takeaways, Limitations

Takeaways:
Presentamos un modelo eficiente de síntesis de voz de múltiples hablantes a largo plazo basado en la siguiente difusión de tokens.
Desarrollo de un nuevo tokenizador de voz continua con una relación de compresión de datos 80 veces mejor que los modelos existentes.
Síntesis de voz multihablante de alta calidad de hasta 90 minutos de duración.
Implementar un ambiente conversacional mejorado en comparación con los modelos de código abierto y comerciales.
Limitations:
El artículo no presenta métricas específicas de evaluación del desempeño (por ejemplo, calidad del sonido, naturalidad).
Posibles limitaciones en el tiempo de síntesis debido al límite de longitud de la ventana de contexto de 64K.
No se ha confirmado el rendimiento de más de 4 altavoces.
Falta de información sobre los datos de entrenamiento del modelo y la arquitectura específica.
👍