每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

超越视觉:评估多模态法学硕士在工具支持的图像感知、转换和推理方面的应用

Created by
  • Haebom

作者

郭新刚、Utkarsh Tyagi、Advait Gosai、Paula Vergara、Ernesto Gabriel Hern andez Montoya、陈波 Calvin 张、胡斌、何云中、刘兵、Rakshith Sharma Srinivasa

大纲

本文重点探讨了多模态大规模语言模型 (MLLM) 在实际环境中的应用,在这些环境中,用户提供的图像通常存在缺陷。因此,需要进行主动图像处理,例如裁剪、编辑和增强。MLLM 必须动态地转换视觉内容并与其他工具集成,以利用图像解决复杂的任务,超越静态视觉识别的局限。为了弥补现有基准测试忽视从“思考图像”到“用图像思考”转变的局限性,本文引入了 VisualToolBench 来评估 MLLM 在复杂视觉文本任务中的视觉识别、转换和推理能力。VisualToolBench 涵盖了五个不同领域的 1,204 个具有挑战性的开放式视觉任务(603 个单轮任务和 601 个多轮任务),并提供了详细的评分标准,用于系统性评估。评估结果表明,当前的 MLLM 在需要有效整合视觉和通用工具的任务中表现不佳,即使是最稳健的模型,通过率也只有 18.68%。此外,我们还观察到了不同的工具使用行为,OpenAI 模型受益于各种图像处理,而 Gemini-2.5-pro 则没有表现出任何改进。VisualToolBench 是首个专注于“图像思维”的基准测试,为机器学习语言模型 (MLLM) 中视觉智能的进步提供了宝贵的见解。

Takeaways, Limitations

Takeaways:
MLLM 强调在现实环境中操纵和利用图像的能力的重要性。
开发 VisualToolBench,这是“图像思考”范式的新基准。
观察各种 MLLM 的工具使用行为和性能的差异。
为 MLLM 中视觉智能的发展提供了重要见解。
Limitations:
目前正在展示 MLLM 的“图像思考”能力 Limitations。
即使是最强大的模型的通过率也很低,因此需要进一步研究。
需要进一步分析特定型号(例如 Gemini-2.5-pro)的工具使用行为。
👍