Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Informe técnico de Fun-ASR

Created by
  • Haebom

Autor

Keyu An, Yanni Chen, Chong Deng, Changfeng Gao, Zhifu Gao, Bo Gong, Xiangang Li, Yabin Li, Xiang Lv, Yunjie Ji, Yiheng Jiang, Bin Ma, Haoneng Luo, Chongjia Ni, Zexu Pan, Yiping Peng, Zhendong Peng, Peiyao Wang, Hao Wang, Wen Wang, Wupeng Wang, Biao Tian, ​​​​Zhentao Tan, Nan Yang, Bin Yuan, Jieping Ye, Jixing Yu, Qinglin Zhang, Kun Zou, Han Zhao, Shengkui Zhao, Jingren Zhou

Describir

Este artículo presenta Fun-ASR, un sistema de ASR basado en LLM que combina sinérgicamente datos a gran escala, escalamiento de modelos, integración de modelos de lenguaje a gran escala (LLM) y aprendizaje por refuerzo para lograr un rendimiento de vanguardia en diversos escenarios de reconocimiento de voz. Específicamente, está optimizado para cumplir con los requisitos de aplicaciones reales, como las capacidades de streaming, la inmunidad al ruido, la conmutación de código y la personalización de palabras clave. En conjuntos de datos industriales reales, Fun-ASR supera a los sistemas de ASR basados ​​en LLM existentes.

Takeaways, Limitations

Desarrollo de un sistema de reconocimiento de voz práctico que demuestra un rendimiento superior en conjuntos de datos industriales del mundo real.
Mejora del rendimiento del reconocimiento de voz aprovechando modelos lingüísticos a gran escala (LLM).
Optimizado para funciones críticas para aplicaciones del mundo real, como transmisión, inmunidad al ruido y cambio de código.
No se menciona el problema de alucinaciones del LLM y no se ofrecen soluciones específicas para abordarlo.
Falta de información sobre comparación directa con otros sistemas ASR basados ​​en LLM.
👍