本文探讨了由大规模音频语言模型 (LALM) 发展推动的音频问答 (AQA) 这一新兴任务。现有的 AQA 研究主要侧重于生成新的数据集,但未能充分利用现有的高质量数据集。为了解决这个问题,本文提出了 Omni-CLST 框架,该框架结合了错误感知课程学习和选择性思维链。Omni-CLST 通过按难度级别对样本进行排序并对困难案例进行强化推理,有效地利用了现有的高质量数据集。实验结果表明,Omni-CLST 在 MMAU-mini 数据集上达到了 73.80% 的性能,在 MMAR 数据集上达到了 64.30%,展现了其在多模态音频语言理解方面的强大泛化能力。