Este artículo desarrolla sistemáticamente un modelo de subtitulado de imágenes en la intersección de la visión artificial y el procesamiento del lenguaje natural. Presentamos cinco modelos (de Genesis a Nexus), que abarcan desde un codificador-decodificador CNN-LSTM simple hasta un modelo Nexus avanzado con un mecanismo de atención eficiente. Analizamos experimentalmente los cambios de rendimiento asociados a las mejoras arquitectónicas en cada modelo. Específicamente, demostramos que la simple actualización de la estructura visual en una arquitectura CNN-LSTM puede resultar en una degradación del rendimiento, lo que resalta la importancia del mecanismo de atención. El modelo final, Nexus, entrenado con el conjunto de datos MS COCO 2017, alcanza una puntuación BLEU-4 de 31,4, superando a varios modelos de referencia y validando la efectividad del proceso de diseño iterativo. Este trabajo proporciona un modelo claro y replicable para comprender los principios arquitectónicos fundamentales de las tareas modernas de visión y lenguaje.