Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

WoW-Bench : évaluation de la perception acoustique fine dans les modèles audio-langagiers via les vocalisations des mammifères marins

Created by
  • Haebom

Auteur

Jaeyeon Kim, Heeseung Yun, Sang Hoon Woo, Chao-Han Huck Yang, Gunhee Kim

Contour

Cet article souligne que les capacités auditives de bas niveau des modèles de langage audio à grande échelle (LALM), notamment la détection de la hauteur et de la durée, restent sous-explorées. L'audition de bas niveau est cruciale pour les tâches distribuées du monde réel qui nécessitent des inférences sur des sons inconnus à partir d'indices acoustiques subtils. Pour combler cette lacune, nous présentons le World-of-Whale Bench (WoW-Bench), qui évalue la perception auditive de bas niveau à l'aide des sons de mammifères marins. WoW-Bench se compose d'un benchmark cognitif qui classe les sons nouveaux et d'un benchmark cognitif inspiré de la taxonomie de Bloom qui évalue la capacité à mémoriser, comprendre, appliquer et analyser les événements sonores. Le benchmark cognitif comprend des questions de distraction permettant de déterminer si le modèle résout les problèmes par l'écoute ou s'il s'appuie sur d'autres heuristiques. Les résultats expérimentaux obtenus avec des LALM de pointe montrent des performances significativement inférieures à celles des humains, ce qui suggère la nécessité d'une base auditive plus solide pour les LALM.

Takeaways, Limitations

Takeaways: WoW-Bench fournit un nouveau point de référence pour évaluer les capacités de perception auditive de bas niveau du modèle LALM. Il démontre clairement les lacunes actuelles de ces capacités et suggère des pistes de recherche pour les recherches futures. La conception d'un point de référence cognitif utilisant la taxonomie de Bloom offre une approche utile pour évaluer de manière multidimensionnelle le niveau de compréhension auditive du modèle. L'évaluation à l'aide de questions distrayantes permet une évaluation plus précise des capacités d'écoute réelles du modèle.
Limitations: WoW-Bench se concentrant uniquement sur les sons des mammifères marins, il est limité dans l'évaluation de la capacité auditive de bas niveau des LALM pour d'autres types de sons. Des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité de ce benchmark. Les expériences actuelles se limitent aux LALM de pointe, et d'autres expériences avec différentes architectures de modèles et méthodes d'apprentissage sont nécessaires.
👍