Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

How Well Does GPT-4o Understand Vision? Evaluating Multimodal Foundation Models on Standard Computer Vision Tasks

Created by
  • Haebom

作者

Rahul Ramachandran, Ali Garjani, Roman Bachmann, Andrei Atanov, O\u{g}uzhan Fatih Kar, Amir Zamir

概要

本論文では、GPT-4o、o4-mini、Gemini 1.5 Pro、Gemini 2.0 Flash、Claude 3.5 Sonnet、Qwen2-VL、Llama 3.2など、人気のあるマルチモーダルベースモデルのコンピュータビジョン課題(細分化された意味分析、オブジェクト検出、画像分類、深さ、表面法線予測)を実行ベンチマークしました。モデルはもともとテキスト出力に最適化されており、一部はAPIアクセスのみ可能であるという困難をプロンプトチェインを通じて克服し、標準化されたベンチマークフレームワークを構築しました。その結果、これらのモデルはプロのコンピュータビジョンモデルには達していませんが、主に画像テキストベースで学習されたにもかかわらず、かなりの一般化能力を示し、意味関連の課題では幾何学的課題よりも優れたパフォーマンスを示しました。 GPT-4oは非推論モデルの中で最も優れた性能を示し、推論モデルは幾何学的課題において性能向上を示した。しかし、GPT-4oのような画像生成機能を備えたモデルは、幻覚や空間的な位置合わせエラーなどの問題を示しました。

Takeaways、Limitations

Takeaways:
マルチモーダルベースのモデルは、画像 - テキストベースの学習だけでコンピュータビジョンの課題にかなりの一般化能力を示すことを確認しました。
プロンプトエンジニアリングにより、マルチモーダルモデルをコンピュータビジョン課題に適用できる可能性を提示します。
モデルのパフォーマンスの違いと強み/弱点分析による将来のモデル開発の方向性の提示
GPT-4oを含む最新のマルチモーダルモデルのコンピュータビジョン性能の基準点提示
Limitations:
ベンチマークに使用されているモデルがすべて最新のモデルではないか、一部はAPIアクセスのみが可能で、パフォーマンス評価に制約があります。
プロンプトチェイン技術がモデルのパフォーマンスに影響を与えるため、結果の解釈に注意が必要です。
画像生成機能を備えたモデルのサイケデリックおよび空間的整列エラーの問題は、追加の研究が必要です。
さまざまなコンピュータビジョン課題の包括的な評価ではなく、制限された課題の評価のみを実行します。
👍