大规模多模态模型将视觉和语言相结合,在各种任务中取得了卓越的性能,但它们处理多个视觉相似输入的能力仍未得到充分研究。本文提出了一个新的基准——VisioMath,用于评估细粒度比较推理。VisioMath 包含 K-12 数学问题,所有答案都以具有细微视觉相似性的图片形式呈现。我们评估了最先进的大型多模态模型 (LMM),发现准确率随着图像相似度的增加而持续下降。图文错位被确定为失败的主要原因,并提出了三种以对齐为导向的策略来提高准确率。VisioMath 有望有助于提升 LMM 深入理解图表、进行准确的比较推理以及整合多个图文对的能力。