每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

GRAFT:文本对齐的图形和表格推理——结构化教学跟踪和视觉推理的基准

Created by
  • Haebom

作者

Abhigya Verma、Sriram Puttagunta、Seganrasan Subramanian、Sravan Ramachandran

大纲

GRAFT 是一个结构化的多模态基准测试,用于评估方向跟踪、视觉推理和视觉文本对齐任务。它使用 Python 可视化库以编程方式生成图表和合成渲染表格,确保对数据语义、结构和清晰度的控制。每个 GRAFT 实例都将图表或表格图像与一个仅基于视觉内容系统生成的多步骤分析问题配对。答案以 JSON 或 YAML 等结构化格式提供,以支持对推理和输出格式的一致评估。该基准测试通过引入推理类型分类法(包括比较、趋势识别、排序、聚合、比例估计和异常检测)来实现全面评估。参考答案遵循严格的事实和格式指南,以实现准确且基于方面的评估。GRAFT 为基于视觉的结构化推理任务的多模态模型的细粒度基准测试提供了一个统一且可扩展​​的框架,为该领域的评估树立了新的标准。

Takeaways, Limitations

提供结构化基准,用于评估多模式模型遵循指示、视觉推理和对齐视觉文本的能力。
利用以编程方式生成的图表和表格来确保对数据语义、结构和清晰度的控制。
使用 JSON 或 YAML 格式的结构化答案确保推理和输出格式评估的一致性。
综合评估支持,包括比较和趋势识别等各种推理
遵循严格的事实和正式指导方针进行准确评估
实现基于视觉的结构化推理任务的多模式模型的细粒度基准测试。
具体Limitations必须通过论文内容来确认(论文摘要中的信息不足)
👍