Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

AudioCodecBench: un punto de referencia integral para la evaluación de códecs de audio

Created by
  • Haebom

Autor

Lu Wang, Hao Chen, Siyu Wu, Zhiyue Wu, Hao Zhou, Chengfeng Zhang, Ting Wang, Haodi Zhang

Describir

Este artículo destaca la importancia de la tokenización del habla y la música en los modelos lingüísticos multimodales a gran escala (MLLM) y señala las deficiencias de la investigación existente. Se señala que los estudios existentes carecen de definiciones adecuadas de tokens semánticos y acústicos, y que sus evaluaciones de códecs están sesgadas hacia dominios o tareas específicos (p. ej., reconstrucción o reconocimiento automático del habla), lo que dificulta las comparaciones justas y exhaustivas. Por lo tanto, este artículo propone definiciones apropiadas de tokens semánticos y acústicos y un marco de evaluación sistemática para evaluar el rendimiento del códec en cuatro dimensiones: métricas de reconstrucción acústica, estabilidad del índice del libro de códigos, perplejidad del transformador específica del decodificador y rendimiento de la subtarea. Los resultados experimentales demuestran la validez de las definiciones propuestas y las correlaciones entre las métricas de reconstrucción, la estabilidad del ID del libro de códigos, el rendimiento de la subtarea y la perplejidad.

Takeaways, Limitations

Takeaways:
Contribuyó a la investigación sobre la tokenización fonética y musical en MLLM al proporcionar definiciones claras de tokens semánticos y acústicos.
Establecer una base para la comparación y evaluación integral del rendimiento de los códecs a través de un marco de evaluación multidimensional.
Proporciona información sobre el diseño y la optimización de códecs al identificar correlaciones entre las métricas de reconstrucción, la estabilidad del ID del libro de códigos, el rendimiento de las subtareas y la perplejidad.
Limitations:
Se necesita más investigación para determinar la versatilidad del marco de evaluación propuesto y su generalización a varios conjuntos de datos de habla y música.
Existe la posibilidad de sesgo en la evaluación debido a limitaciones en el tipo y número de subtareas utilizadas en la evaluación.
No se puede descartar que exista un sesgo hacia determinados códecs o modelos.
👍