Cet article développe systématiquement un modèle de sous-titrage d'images à l'intersection de la vision par ordinateur et du traitement du langage naturel. Nous présentons cinq modèles (de Genesis à Nexus), allant d'un simple encodeur-décodeur CNN-LSTM à un modèle Nexus avancé doté d'un mécanisme d'attention performant. Nous analysons expérimentalement les changements de performances associés aux améliorations architecturales de chaque modèle. Plus précisément, nous démontrons que la simple mise à niveau de la structure visuelle d'une architecture CNN-LSTM peut entraîner une dégradation des performances, soulignant l'importance du mécanisme d'attention. Le modèle final, Nexus, entraîné sur le jeu de données MS COCO 2017, obtient un score BLEU-4 de 31,4, surpassant plusieurs modèles de référence et validant l'efficacité du processus de conception itératif. Ce travail fournit un modèle clair et reproductible pour comprendre les principes architecturaux fondamentaux des tâches vision-langage modernes.