每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

VisioMath:LMM 中基于图形的数学推理基准测试

Created by
  • Haebom

作者

李灿、刘英、张婷、王梅、黄华

大纲

大规模多模态模型将视觉和语言相结合,在各种任务中取得了卓越的性能,但它们处理多个视觉相似输入的能力仍未得到充分研究。本文提出了一个新的基准——VisioMath,用于评估细粒度比较推理。VisioMath 包含 K-12 数学问题,所有答案都以具有细微视觉相似性的图片形式呈现。我们评估了最先进的大型多模态模型 (LMM),发现准确率随着图像相似度的增加而持续下降。图文错位被确定为失败的主要原因,并提出了三种以对齐为导向的策略来提高准确率。VisioMath 有望有助于提升 LMM 深入理解图表、进行准确的比较推理以及整合多个图文对的能力。

Takeaways, Limitations

Takeaways:
我们提出了一种新的基准,使用 VisioMath 基准来评估 LMM 的细粒度比较推理能力。
我们确定了 LMM 中的图像文本对齐问题并提出了解决该问题的策略。
我们提出了 LMM 在数学教育中的潜在应用。
Limitations:
我们仅探索了有限数量的以对齐为导向的策略。
它可能仅限于某些类型的数学问题。
需要进一步验证其对各种现实问题的普遍性。
👍