Beyond Seeing: Evaluating Multimodal LLMs on Tool-Enabled Image Perception, Transformation, and Reasoning
Created by
Haebom
作者
Xingang Guo, Utkarsh Tyagi, Advait Gosai, Paula Vergara, Jayeon Park, Ernesto Gabriel Hern andez Montoya, Chen Bo Calvin Zhang, Bin Hu, Yunzhong He, Bing Liu, Rakshith Sharma Srinivasa
概要
この論文では、ユーザーが提供した画像を積極的に操作し、視覚的な内容を動的に変換し、他のツールと統合して複雑な作業を解決する必要があるMLLM(Multimodal Large Language Models)の能力を評価する新しいベンチマーク、VisualToolBenchを紹介します。既存のベンチマークが画像を静的な入力として扱うのとは異なり、VisualToolBenchは、画像を操作可能な認知ワークスペースと見なす「think-with-images」パラダイムを中心に、1,204のビジュアルテキスト操作を通じてMLLMの能力を評価します。