Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Omni-CLST: Error-aware Curriculum Learning with guided Selective chain-of-Thought for audio question answering

Created by
  • Haebom

作者

Jinghua Zhao, Hang Su, Lichun Fan, Zhenbo Luo, Hui Wang, Haoqin Sun, Yong Qin

概要

この論文は、大規模なオーディオ言語モデル(LALM)の進歩によって新たに登場したオーディオクエリ応答(AQA)の課題について説明します。従来のAQA研究は主に新しいデータセットの作成に焦点を当てていましたが、高品質の既存のデータセットの活用には不十分です。これに対処するために、この論文は、誤認識認識カリキュラム学習と誘導的思考過程の選択を組み合わせたOmni-CLSTフレームワークを提案します。 Omni-CLSTは、難易度に応じたサンプルの整列と困難な場合の集中的な推論により、既存の高品質データセットを効率的に活用します。実験の結果、Omni-CLSTはMMAU-miniで73.80%、MMARで64.30%のパフォーマンスを達成し、マルチモーダルオーディオ - 言語理解で強力な一般化能力を示しました。

Takeaways、Limitations

Takeaways:
既存の高品質AQAデータセットを効果的に活用する新しいフレームワーク(Omni-CLST)の提示
エラー認識カリキュラム学習と誘導的思考過程の選択による性能向上
MMAU-miniおよびMMARデータセットで最先端のパフォーマンスを実現
マルチモーダルオーディオ - 言語理解分野の発展に貢献
Limitations:
提案されたフレームワークの一般化性能の追加検証が必要
さまざまな種類のオーディオデータと質問に対する適用性の評価が必要
他のAQAモデルとの比較分析強化が必要
👍