Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

WoW-Bench: Evaluating Fine-Grained Acoustic Perception in Audio-Language Models via Marine Mammal Vocalizations

Created by
  • Haebom

作者

Jaeyeon Kim, Heeeung Yun, Sang Hoon Woo, Chao-Han Huck Yang, Gunhee Kim

概要

この論文は、大規模オーディオ言語モデル(LALM)の低レベルリスニング能力、特に音楽と持続時間検出能力がまだ十分に探求されていないことを指摘しています。低レベルのリスニングは、未知の音について微細な音響手がかりに基づいて推論する必要がある実際の状況の分布外の作業にとって重要です。これらのギャップを解消するために、海洋哺乳類の音を使用して低レベルの聴覚認知能力を評価するWorld-of-Whaleベンチマーク(WoW-Bench)を提示します。 WoW-Benchは、新しいサウンドを分類する認知ベンチマークと、ブルームの分類システムに触発され、サウンドイベントを記憶、理解、適用、分析する能力を評価する認知ベンチマークで構成されています。認知ベンチマークには、モデルがリスニングを通じて問題を解決するのか、それとも別のヒューリスティックに依存しているのかを評価するための妨害要素の質問が追加されました。最先端のLALMを用いた実験結果は、人間のレベルよりはるかに低い性能を示し、LALMにはより強力な聴覚ベースが必要であることを示唆しています。

Takeaways、Limitations

Takeaways: WoW-Benchは、LALMの低レベル聴覚認知能力を評価するための新しいベンチマークを提供します。現在、LALMの低レベルの聴覚能力の欠如を明確に示しており、今後の研究の方向性を示しています。ブルームの分類スキームを活用した認知ベンチマーク設計は、モデルの聴覚理解レベルを多角的に評価するための有用なアプローチを提供します。障害要因の質問による評価は、モデルの実際のリスニング能力をより正確に評価できるようにします。
Limitations: WoW-Benchは海洋哺乳類の音にのみ焦点を当てているため、他の種類の音に対するLALMの低レベルリスニング能力を評価するには制限があります。ベンチマークの一般化の可能性に関する追加の研究が必要です。現在の実験は最先端のLALMに限定されており、さまざまなモデルアーキテクチャとトレーニング方法のための追加の実験が必要です。
👍