[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Explications spatiales dans les modèles de langage visuel pour la réponse visuelle aux questions de documents

Created by
  • Haebom

Auteur

Maximiliano Hormaz abal Lagos, Hector Cerezo-Costas, Dimosthenis Karatzas

Contour

EaGERS est un pipeline entièrement sans formation et indépendant du modèle qui (1) génère des vérités fondamentales en langage naturel via un modèle de langage de vision, (2) calcule les similarités d'intégration multimodales sur une grille configurable et ancre ces vérités fondamentales dans des sous-régions spatiales par vote majoritaire, et (3) limite la génération de réponses aux seules régions pertinentes sélectionnées à partir d'images masquées. Les résultats expérimentaux obtenus sur le jeu de données DocVQA montrent que la configuration optimale non seulement surpasse les modèles de base en termes de précision d'appariement exact et de métrique de similarité de Levenshtein normalisée à la moyenne, mais améliore également la transparence et la reproductibilité de DocVQA sans ajustement supplémentaire du modèle.

Takeaways, Limitations

Takeaways:
Améliorer les performances de DocVQA sans affiner le modèle et augmenter la transparence et la reproductibilité
Présentation d'un pipeline indépendant du modèle qui ne nécessite aucune formation
Génération de preuves en langage naturel et présentation de preuves spatiales à l'aide de modèles vision-langage
Limitations:
Le Limitations spécifique n'est pas explicitement mentionné dans l'article. Cependant, comme seuls les résultats expérimentaux d'un ensemble de données spécifique (DocVQA) sont présentés, la généralisabilité à d'autres ensembles de données pourrait nécessiter des études plus approfondies.
En raison des limites du vote à la majorité, il existe un risque de sélection inexacte des bases.
Manque de discussion sur l’optimisation des hyperparamètres, tels que la taille et la résolution de la grille configurables.
👍