本文重点探讨了多模态大规模语言模型 (MLLM) 在实际环境中的应用,在这些环境中,用户提供的图像通常存在缺陷。因此,需要进行主动图像处理,例如裁剪、编辑和增强。MLLM 必须动态地转换视觉内容并与其他工具集成,以利用图像解决复杂的任务,超越静态视觉识别的局限。为了弥补现有基准测试忽视从“思考图像”到“用图像思考”转变的局限性,本文引入了 VisualToolBench 来评估 MLLM 在复杂视觉文本任务中的视觉识别、转换和推理能力。VisualToolBench 涵盖了五个不同领域的 1,204 个具有挑战性的开放式视觉任务(603 个单轮任务和 601 个多轮任务),并提供了详细的评分标准,用于系统性评估。评估结果表明,当前的 MLLM 在需要有效整合视觉和通用工具的任务中表现不佳,即使是最稳健的模型,通过率也只有 18.68%。此外,我们还观察到了不同的工具使用行为,OpenAI 模型受益于各种图像处理,而 Gemini-2.5-pro 则没有表现出任何改进。VisualToolBench 是首个专注于“图像思维”的基准测试,为机器学习语言模型 (MLLM) 中视觉智能的进步提供了宝贵的见解。