본 논문은 컴퓨터 비전과 자연어 처리의 교차점에 있는 이미지 캡셔닝 모델의 체계적인 개발 과정을 다룹니다. 단순한 CNN-LSTM 인코더-디코더부터 효율적인 어텐션 메커니즘을 갖춘 고급 모델 Nexus까지, 총 다섯 가지 모델(Genesis부터 Nexus까지)을 제시하며 각 모델의 아키텍처 개선에 따른 성능 변화를 실험적으로 분석합니다. 특히, CNN-LSTM 구조에서 단순히 visual backbone을 업그레이드하는 것만으로는 성능이 저하될 수 있으며, 이는 어텐션 메커니즘의 중요성을 보여줍니다. MS COCO 2017 데이터셋으로 학습된 최종 모델 Nexus는 BLEU-4 점수 31.4를 달성하여 여러 기준 모델을 능가하며, 반복적인 설계 과정의 유효성을 입증합니다. 본 연구는 현대적인 비전-언어 작업의 핵심 아키텍처 원리를 이해하기 위한 명확하고 복제 가능한 청사진을 제공합니다.