每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

Omni-CLST:用于音频问答的错误感知课程学习,采用引导式选择性思维链

Created by
  • Haebom

作者

赵京华、苏航、范丽春、罗振波、王辉、孙浩勤、秦勇

大纲

本文探讨了由大规模音频语言模型 (LALM) 发展推动的音频问答 (AQA) 这一新兴任务。现有的 AQA 研究主要侧重于生成新的数据集,但未能充分利用现有的高质量数据集。为了解决这个问题,本文提出了 Omni-CLST 框架,该框架结合了错误感知课程学习和选择性思维链。Omni-CLST 通过按难度级别对样本进行排序并对困难案例进行强化推理,有效地利用了现有的高质量数据集。实验结果表明,Omni-CLST 在 MMAU-mini 数据集上达到了 73.80% 的性能,在 MMAR 数据集上达到了 64.30%,展现了其在多模态音频语言理解方面的强大泛化能力。

Takeaways,Limitations

Takeaways:
提出了一个新框架(Omni-CLST)来有效利用现有的高质量 AQA 数据集。
通过错误感知课程学习和引导思维过程选择来提高绩效。
在 MMAU-mini 和 MMAR 数据集上实现最先进的性能。
促进多模态音频语言理解的进步
Limitations:
需要进一步验证所提出框架的泛化性能。
需要评估对各种类型的音频数据和问题的适用性
需要加强与其他AQA模型的比较分析。
👍