[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Codificación de audio específica para tareas para máquinas: las características latentes aprendidas por las máquinas son códigos para esa máquina

Created by
  • Haebom

Autor

Anastasia Kuznetsova, Inseon Jang, Wootaek Lim, Minje Kim

Describir

En este artículo, presentamos un nuevo método para comprimir y cuantificar eficientemente las representaciones de características intermedias de modelos de voz/audio preentrenados, centrándonos en la codificación de audio para máquinas (ACoM). A diferencia de los códecs de audio neuronal convencionales, que se centran en la reconstrucción de alta fidelidad, nuestro estudio busca minimizar la degradación del rendimiento de los submodelos, incluso a tasas de bits ultrabajas (<200 bps), priorizando el rendimiento de las subtareas. Aprovechando la pérdida de cuantificación vectorial residual (RVQ) y la guía de pérdida específica para cada tarea, desarrollamos un tokenizador aplicable a diversas tasas de bits y tamaños de modelo, y demostramos su eficacia en tareas de reconocimiento automático de voz y clasificación de audio.

Takeaways, Limitations

Takeaways:
Presentamos un método ACoM eficiente que minimiza la degradación del rendimiento del submodelo incluso a velocidades de bits ultrabajas (menos de 200 bps).
Proporciona un tokenizador flexible aplicable a distintas velocidades de bits y tamaños de modelo.
De eficacia demostrada en tareas de reconocimiento automático de voz y clasificación de audio.
Demuestra aplicabilidad a una variedad de tareas y arquitecturas.
Limitations:
Se necesita más investigación sobre el rendimiento de generalización del método propuesto.
Se necesitan amplios resultados experimentales sobre diversos conjuntos de datos de voz y audio.
Se necesita más investigación para mitigar las dependencias en tareas y arquitecturas específicas.
👍