Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

OpenS2S: Avances en un modelo de lenguaje de voz grande, empático, de extremo a extremo y totalmente de código abierto

Created by
  • Haebom

Autor

Chen Wang, Tianyu Peng, Wen Yang, Yinan Bai, Guangfu Wang, Jun Lin, Lanpeng Jia, Lingxiang Wu, Jinqiao Wang, Chengqing Zong, Jiajun Zhang

Describir

En este artículo, presentamos OpenS2S, un modelo lingüístico a gran escala (LSLM) de código abierto, transparente e integral para la interacción vocal empática. OpenS2S logra la generación de voz de baja latencia mediante una arquitectura de decodificación intercalada de streaming basada en el modelo empático de voz a texto BLSP-Emo. Integra un proceso automatizado de construcción de datos que sintetiza conversaciones de voz empáticas diversas, de alta calidad y a bajo coste, facilitando el aprendizaje integral. Aprovechamos modelos lingüísticos a gran escala para generar contenido empático e introducimos variación del hablante y emocional mediante un sistema controlable de texto a voz, creando un corpus de entrenamiento escalable con una rica diversidad paralingüística y mínima supervisión humana. Publicamos el modelo OpenS2S de código abierto, que incluye el conjunto de datos, las ponderaciones del modelo, el preentrenamiento y el código de ajuste, para apoyar a la comunidad investigadora en general y acelerar la innovación en sistemas de voz empática.

Takeaways, Limitations

Takeaways:
Acelerar la accesibilidad y la innovación en la investigación proporcionando un LSLM completamente de código abierto para interacciones de voz empáticas.
Aprovechamiento de la arquitectura de decodificación intercalada de transmisión para la generación de voz de baja latencia.
Cree conjuntos de datos a gran escala de forma económica y eficiente con canales de construcción de datos automatizados.
Proporcionar un corpus de entrenamiento escalable con una rica diversidad paralingüística.
Limitations:
Este artículo no presenta resultados de evaluación específicos sobre el desempeño del modelo OpenS2S.
Falta de análisis detallado de la calidad y el sesgo del conjunto de datos.
Es necesario un análisis comparativo con otras LSLM empáticas.
Se requiere una validación adicional del rendimiento y la estabilidad en entornos de aplicaciones reales.
👍