[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

GeoChain : Chaîne de pensées multimodale pour le raisonnement géographique

Created by
  • Haebom

Auteur

Sahiti Yerramilli, Nilay Pande, Rynaa Grover, Jayant Sravan Tamarapalli

Contour

GeoChain est un benchmark à grande échelle permettant d'évaluer l'inférence géographique étape par étape de modèles linguistiques multimodaux à grande échelle (MLLM). Il utilise 1,46 million d'images Mapillary au niveau de la rue, chacune associée à une séquence de 21 étapes de questions de processus de pensée (CoT) (plus de 30 millions de paires de questions-réponses). Ces séquences guident le modèle d'une localisation grossière à une localisation fine à travers quatre catégories d'inférence : visuelle, spatiale, culturelle et géolocalisation précise, et sont annotées en fonction de la difficulté. Les images sont également enrichies d'une segmentation sémantique (150 classes) et de scores de localisation visuelle. L'analyse comparative de MLLM de pointe (variantes GPT-4.1, Claude 3.7, Gemini 2.5) sur un sous-ensemble diversifié de 2 088 images révèle des problèmes récurrents : les modèles présentent des faiblesses dans les paramètres visuels, une inférence irrégulière et des difficultés de localisation précise, notamment lorsque la complexité de l'inférence augmente. GeoChain fournit une méthodologie de diagnostic robuste qui est essentielle pour faciliter des avancées significatives dans l'inférence géographique complexe au sein des MLLM.

Takeaways, Limitations_

Takeaways:
Présentation de GeoChain, un benchmark à grande échelle pour évaluer la capacité d'inférence géographique étape par étape de MLLM
Nous révélons les faiblesses du MLLM en termes de configuration de la fondation visuelle, de capacité d’inférence et de précision de localisation.
Fournir une méthodologie de diagnostic pour améliorer les capacités d'inférence géographique complexes de MLLM
Limitations:
Le nombre d'images utilisées pour l'analyse comparative (2 088) est relativement faible par rapport à l'ensemble des données (1,46 million). Une vérification à l'aide de données supplémentaires est nécessaire.
Les modèles actuellement utilisés pour l'analyse comparative se limitent à un MLLM spécifique. Une évaluation complémentaire de divers modèles est nécessaire.
Manque d'analyse approfondie des causes de la dégradation des performances due à la complexité accrue des inférences. Une analyse complémentaire est nécessaire pour suggérer des pistes d'amélioration.
👍