[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

HueManity : étude de la perception visuelle fine dans les MLLM

Created by
  • Haebom

Auteur

Ryana Grover, Jayant Sravan Tamarapalli, Sahiti Yerramilli, Nilay Pande

Contour

Cet article aborde les limites des modèles linguistiques multimodaux à grande échelle (MLLM) dans la réalisation de tâches perceptuelles subtiles. Nous présentons le benchmark HueManity, composé de 83 850 images contenant des chaînes alphanumériques suivant des motifs de points de type Ishihara, afin d'évaluer les capacités perceptuelles visuelles des MLLM. Neuf MLLM de pointe sont évalués sur HueManity et montrent qu'ils sont nettement moins performants que les modèles de référence de vision par ordinateur existants et humains. Le MLLM le plus performant atteint une précision de 33,6 % pour la tâche « facile » basée sur les chiffres et de 3 % pour la tâche « difficile » alphanumérique, tandis que les participants humains obtiennent des scores quasi parfaits (100 % et 95,6 %), et un modèle ResNet50 affiné atteint une précision de 96,5 % et 94,5 %. Cela met en évidence un écart important dans les capacités visuelles des MLLM actuels. Dans cet article, nous analysons plus en détail les facteurs potentiels de paradigme architectural et de formation contribuant à l'écart perceptuel dans les MLLM, et nous rendons l'ensemble de données et le code HueManity publics pour de futures recherches.

Takeaways, Limitations

Takeaways:
Cela présente de sérieuses limitations aux capacités de perception visuelle des MLLM actuels.
Nous fournissons une nouvelle référence (HueManity) pour améliorer la capacité de perception visuelle de MLLM.
Nous présentons des axes de recherche pour améliorer l’architecture MLLM et les méthodes de formation.
Nous facilitons la recherche sur l’amélioration de la robustesse perceptuelle du MLLM grâce à des ensembles de données et du code ouverts.
Limitations:
Le benchmark HueManity se concentre sur un type spécifique de tâche de perception visuelle (similaire au test d'Ishihara), ce qui peut limiter sa généralisabilité.
Une exploration plus approfondie de l’architecture et de la méthode de formation du MLLM analysé est nécessaire.
L’analyse présentée est limitée à un MLLM spécifique et la généralisabilité à d’autres modèles doit être vérifiée.
👍