Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

WoW-Bench: Evaluación de la percepción acústica de grano fino en modelos de audiolenguaje mediante vocalizaciones de mamíferos marinos

Created by
  • Haebom

Autor

Jaeyeon Kim, Heeseung Yun, Sang Hoon Woo, Chao-Han Huck Yang, Gunhee Kim

Describir

Este artículo destaca que las capacidades auditivas de bajo nivel de los modelos de lenguaje de audio a gran escala (LALM), en particular la detección de tono y duración, siguen siendo poco exploradas. La audición de bajo nivel es crucial para tareas distribuidas del mundo real que requieren inferencias sobre sonidos desconocidos basadas en señales acústicas sutiles. Para abordar esta brecha, presentamos el World-of-Whale Bench (WoW-Bench), que evalúa la percepción auditiva de bajo nivel utilizando los sonidos de mamíferos marinos. WoW-Bench consiste en un punto de referencia cognitivo que clasifica sonidos nuevos y un punto de referencia cognitivo inspirado en la taxonomía de Bloom que evalúa la capacidad de recordar, comprender, aplicar y analizar eventos sonoros. El punto de referencia cognitivo incluye preguntas distractoras para evaluar si el modelo resuelve problemas a través de la escucha o se basa en otras heurísticas. Los resultados experimentales utilizando LALM de última generación demuestran un rendimiento significativamente menor que el de los humanos, lo que sugiere la necesidad de una base auditiva más sólida para los LALM.

Takeaways, Limitations

Takeaways: WoW-Bench proporciona un nuevo punto de referencia para evaluar las capacidades de percepción auditiva de bajo nivel de LALM. Demuestra claramente las deficiencias actuales de las capacidades auditivas de bajo nivel de LALM y sugiere líneas de investigación futuras. El diseño de un punto de referencia cognitivo mediante la taxonomía de Bloom ofrece un enfoque útil para evaluar de forma multifacética el nivel de comprensión auditiva del modelo. La evaluación mediante preguntas de distracción permite una evaluación más precisa de las capacidades auditivas reales del modelo.
Limitations: Dado que WoW-Bench se centra exclusivamente en sonidos de mamíferos marinos, su evaluación de la capacidad auditiva de bajo nivel de los LALM para otros tipos de sonidos es limitada. Se requiere más investigación para determinar la generalización del punto de referencia. Los experimentos actuales se limitan a LALM de última generación, y se requieren más experimentos con diversas arquitecturas de modelos y métodos de entrenamiento.
👍