Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Quand une meilleure vue mène à la cécité : une étude diagnostique du goulot d'étranglement informationnel dans les modèles de sous-titrage d'images CNN-LSTM

Created by
  • Haebom

Auteur

Hitesh Kumar Gupta

Contour

Cet article développe systématiquement un modèle de sous-titrage d'images à l'intersection de la vision par ordinateur et du traitement du langage naturel. Nous présentons cinq modèles (de Genesis à Nexus), allant d'un simple encodeur-décodeur CNN-LSTM à un modèle Nexus avancé doté d'un mécanisme d'attention performant. Nous analysons expérimentalement les changements de performances associés aux améliorations architecturales de chaque modèle. Plus précisément, nous démontrons que la simple mise à niveau de la structure visuelle d'une architecture CNN-LSTM peut entraîner une dégradation des performances, soulignant l'importance du mécanisme d'attention. Le modèle final, Nexus, entraîné sur le jeu de données MS COCO 2017, obtient un score BLEU-4 de 31,4, surpassant plusieurs modèles de référence et validant l'efficacité du processus de conception itératif. Ce travail fournit un modèle clair et reproductible pour comprendre les principes architecturaux fondamentaux des tâches vision-langage modernes.

Takeaways, Limitations

Takeaways:
Démonstration expérimentale de l'importance du mécanisme d'attention dans un modèle de sous-titrage d'images basé sur CNN-LSTM.
Présente clairement l'évolution de l'architecture du modèle de sous-titrage d'images à travers un processus de développement progressif allant des modèles simples aux modèles avancés.
Obtenez des performances qui dépassent les modèles de référence existants avec le modèle Nexus.
Fournit un modèle clair et reproductible pour le développement de modèles de sous-titrage d'images.
Limitations :
Les modèles présentés peuvent avoir des performances légèrement inférieures à celles des derniers modèles de pointe.
Les expériences ont été menées en utilisant uniquement l’ensemble de données MS COCO 2017, ce qui a entraîné un manque de diversité de l’ensemble de données.
Une analyse comparative plus détaillée avec d’autres modèles de sous-titrage d’images est nécessaire.
Une analyse plus approfondie de l’évolutivité du modèle et des performances de généralisation est nécessaire.
👍