每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

GRAFT:文本对齐的图形和表格推理——结构化教学跟踪和视觉推理的基准

Created by
  • Haebom

作者

Abhigya Verma、Sriram Puttagunta、Seganrasan Subramanian、Sravan Ramachandran

大纲

GRAF 是一个结构化的多模态基准测试,用于评估模型在指令遵循、视觉推理和视觉文本对齐任务中的表现。它以 Python 可视化库生成,并以编程方式生成图表和合成渲染表格,从而能够控制数据语义、结构和清晰度。每个 GRAFT 实例都将图表或表格图像与一个基于视觉内容的系统生成的多步骤分析问题配对。答案以 JSON 或 YAML 等结构化格式提供,从而能够对推理和输出格式进行一致的评估。该基准测试通过引入推理类型分类(包括比较、趋势识别、排序、聚合、比例估计和异常检测)来实现全面评估。参考答案遵循严格的事实和形式准则,以确保评估的准确性和基于方面。GRAFT 为基于视觉的结构化推理任务的多模态模型的细粒度基准测试提供了一个统一且可扩展​​的框架,为该领域的评估树立了新的标准。

Takeaways,Limitations

Takeaways:
为准确评估基于可视化数据(图表、表格)的多步骤分析问题模型的推理能力提供了新的基准。
使用 Python 可视化库控制数据的含义、结构和清晰度。
通过结构化响应格式(JSON、YAML)对推理和输出格式进行一致评估。
通过对各种推理类型(比较、趋势识别等)进行分类,可以进行综合评估。
严格的参考答案指南可实现准确且基于方面的评估。
提出了评价多模态模型视觉推理能力的新标准。
Limitations:
由于这是一个基于合成数据的基准,因此需要验证其在真实数据上的泛化性能。
它依赖于 Python 可视化库,因此很难将其应用于其他类型的视觉效果。
除了目前提供的任务之外,还需要添加各种类型的视觉推理任务。
根据基准的大小和复杂性,评估需要大量的计算资源。
👍