GRAFT 是一个结构化的多模态基准测试,用于评估方向跟踪、视觉推理和视觉文本对齐任务。它使用 Python 可视化库以编程方式生成图表和合成渲染表格,确保对数据语义、结构和清晰度的控制。每个 GRAFT 实例都将图表或表格图像与一个仅基于视觉内容系统生成的多步骤分析问题配对。答案以 JSON 或 YAML 等结构化格式提供,以支持对推理和输出格式的一致评估。该基准测试通过引入推理类型分类法(包括比较、趋势识别、排序、聚合、比例估计和异常检测)来实现全面评估。参考答案遵循严格的事实和格式指南,以实现准确且基于方面的评估。GRAFT 为基于视觉的结构化推理任务的多模态模型的细粒度基准测试提供了一个统一且可扩展的框架,为该领域的评估树立了新的标准。