GRAF 是一个结构化的多模态基准测试,用于评估模型在指令遵循、视觉推理和视觉文本对齐任务中的表现。它以 Python 可视化库生成,并以编程方式生成图表和合成渲染表格,从而能够控制数据语义、结构和清晰度。每个 GRAFT 实例都将图表或表格图像与一个基于视觉内容的系统生成的多步骤分析问题配对。答案以 JSON 或 YAML 等结构化格式提供,从而能够对推理和输出格式进行一致的评估。该基准测试通过引入推理类型分类(包括比较、趋势识别、排序、聚合、比例估计和异常检测)来实现全面评估。参考答案遵循严格的事实和形式准则,以确保评估的准确性和基于方面。GRAFT 为基于视觉的结构化推理任务的多模态模型的细粒度基准测试提供了一个统一且可扩展的框架,为该领域的评估树立了新的标准。