この論文は、マルチモーダル大規模言語モデル(MLLM)のオブジェクトカウント能力の欠如の問題を扱います。既存のベンチマークの限界(低いオブジェクト密度、特定の視覚領域の制限)を指摘し、現実的な条件下でMLLMのオブジェクトカウントパフォーマンスを評価するための新しいベンチマークであるCountQAを提示します。 CountQAは、高いオブジェクト密度、クラッタ、および閉塞のある実際の画像を含む1,500以上の質問と回答のペアで構成されています。 15個の主要MLLMをCountQAで評価した結果、最高性能モデルの精度は42.9%に過ぎず、オブジェクト数が増加するほど性能が低下することを確認しました。 CountQAは、MLLMのオブジェクトカウント能力を診断および改善するための専用ベンチマークを提供し、技術的に流暢であるだけでなく、数値的に正確かつ空間的に認識する次世代MLLM開発の基盤を築きます。