この論文は、マルチモーダル大規模言語モデル(MLLM)の微妙な知覚課題の実行能力の限界をカバーしています。石原検査スタイルのドットパターンに、2文字の英数字文字列を含む83,850個の画像で構成されるHueManityという新しいベンチマークを提示します。 9つの最先端のMLLMをHueManityで評価した結果、人や従来のコンピュータビジョン基準モデルに比べて著しい性能低下が見られました。最高性能のMLLMは、数値ベースの「簡単な」課題で33.6%、英数字ベースの「難しい」課題で3%の精度を達成し、一方、参加者はほぼ完璧なスコア(100%と95.6%)を達成し、微調整されたResNet50モデルは96.5%と96.5%を達成しました。これは現在、MLLMの視覚能力に重大な違いがあることを強調している。また、MLLMの知覚格差に寄与する潜在的なアーキテクチャとトレーニングのパラダイム要因を分析し、HueManityデータセットとコードを公開して、MLLMの知覚的堅牢性の向上に関するさらなる研究を促進します。