Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Beyond Seeing: E​​valuating Multimodal LLMs on Tool-Enabled Image Perception, Transformation, and Reasoning

Created by
  • Haebom

作者

Xingang Guo, Utkarsh Tyagi, Advait Gosai, Paula Vergara, Jayeon Park, Ernesto Gabriel Hern andez Montoya, Chen Bo Calvin Zhang, Bin Hu, Yunzhong He, Bing Liu, Rakshith Sharma Srinivasa

概要

この論文では、ユーザーが提供した画像を積極的に操作し、視覚的な内容を動的に変換し、他のツールと統合して複雑な作業を解決する必要があるMLLM(Multimodal Large Language Models)の能力を評価する新しいベンチマーク、VisualToolBenchを紹介します。既存のベンチマークが画像を静的な入力として扱うのとは異なり、VisualToolBenchは、画像を操作可能な認知ワークスペースと見なす「think-with-images」パラダイムを中心に、1,204のビジュアルテキスト操作を通じてMLLMの能力を評価します。

Takeaways、Limitations

Takeaways:
VisualToolBenchは、MLLMが視覚的コンテンツを変換し、一般的なツールと統合する能力を評価する最初のベンチマークです。
ベンチマークには、さまざまなドメインにわたって1,204の難しい視覚テキスト操作が含まれています。
評価の結果、現在、MLLMは、視覚と一般的なツールの効果的な統合が必要な作業に困難を経験していることがわかりました。
モデル間ツールの使用挙動の違いを観察したが、OpenAIモデルは様々な画像操作で利点を得たが、Gemini-2.5-proは改善を示さなかった。
Limitations:
論文自体にはLimitationsへの直接的な言及はありませんが、ベンチマークの結果は現在MLLMの性能限界を示しています。
GPT-5-thinkが18.68%の通過率を示すことは、MLLMが「think-with-images」パラダイムで大幅な改善が必要であることを示唆している。
ベンチマークは、特定のモデルの訓練または最適化に使用でき、一般化のパフォーマンスを阻害する可能性があります。
👍