Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

HueManity: Probing Fine-Grained Visual Perception in MLLMs

Created by
  • Haebom

作者

Rynaa Grover, Jayant Sravan Tamarapalli, Sahiti Yerramilli, Nilay Pande

概要

この論文は、マルチモーダル大規模言語モデル(MLLM)の微妙な知覚課題の実行能力の限界をカバーしています。石原検査スタイルのドットパターンに、2文字の英数字文字列を含む83,850個の画像で構成されるHueManityという新しいベンチマークを提示します。 9つの最先端のMLLMをHueManityで評価した結果、人や従来のコンピュータビジョン基準モデルに比べて著しい性能低下が見られました。最高性能のML​​LMは、数値ベースの「簡単な」課題で33.6%、英数字ベースの「難しい」課題で3%の精度を達成し、一方、参加者はほぼ完璧なスコア(100%と95.6%)を達成し、微調整されたResNet50モデルは96.5%と96.5%を達成しました。これは現在、MLLMの視覚能力に重大な違いがあることを強調している。また、MLLMの知覚格差に寄与する潜在的なアーキテクチャとトレーニングのパラダイム要因を分析し、HueManityデータセットとコードを公開して、MLLMの知覚的堅牢性の向上に関するさらなる研究を促進します。

Takeaways、Limitations

Takeaways:
MLLMの高次元視覚的推論能力とは異なり,微妙な知覚課題の実行能力の限界を明確に示した。
MLLMの視覚的知覚能力を向上させるための研究方向の提示
HueManityデータセット公開によるMLLM研究の活性化
Limitations:
HueManityベンチマークは特定の種類の視覚的課題に焦点を当てており、MLLMの全体的な視覚的能力を完全に評価できない可能性があります。
分析されたMLLMのアーキテクチャとトレーニングパラダイムの多様性は限られている可能性があります。
👍