Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

CountQA: How Well Do MLLMs Count in the Wild?

Created by
  • Haebom

作者

Jayant Sravan Tamarapalli, Rynaa Grover, Nilay Pande, Sahiti Yerramilli

概要

この論文は、マルチモーダル大規模言語モデル(MLLM)のオブジェクトカウント能力の欠如の問題を扱います。既存のベンチマークの限界(低いオブジェクト密度、特定の視覚領域の制限)を指摘し、現実的な条件下でMLLMのオブジェクトカウントパフォーマンスを評価するための新しいベンチマークであるCountQAを提示します。 CountQAは、高いオブジェクト密度、クラッタ、および閉塞のある実際の画像を含む1,500以上の質問と回答のペアで構成されています。 15個の主要MLLMをCountQAで評価した結果、最高性能モデルの精度は42.9%に過ぎず、オブジェクト数が増加するほど性能が低下することを確認しました。 CountQAは、MLLMのオブジェクトカウント能力を診断および改善するための専用ベンチマークを提供し、技術的に流暢であるだけでなく、数値的に正確かつ空間的に認識する次世代MLLM開発の基盤を築きます。

Takeaways、Limitations

Takeaways:
現実的な条件下でMLLMのオブジェクトカウント能力の欠如を明確に示す新しいベンチマークCountQAを提示します。
MLLMのオブジェクト係数性能を向上させるための研究方向を提示する。
CountQAデータセットとコード公開による後続の研究の促進。
Limitations:
CountQAベンチマークはまだ初期段階であり、より多様な視覚的状況とオブジェクトの種類を含むように拡張する必要があります。
現在評価されているMLLMの性能は比較的低いため、今後さらに発展したMLLMの性能向上を継続的に監視する必要があります。
👍