本稿では、コンピュータビジョンと自然言語処理の交差点にある画像キャプショニングモデルの体系的な開発プロセスについて説明します。単純なCNN-LSTMエンコーダ - デコーダから効率的なアテンションメカニズムを備えた高度なモデルNexusまで、合計5つのモデル(GenesisからNexusまで)を提示し、各モデルのアーキテクチャの改善によるパフォーマンスの変化を実験的に分析します。特に、CNN-LSTM構造でビジュアルバックボーンを単にアップグレードするだけでパフォーマンスが低下する可能性があり、これはアテンションメカニズムの重要性を示しています。 MS COCO 2017データセットで学習された最終モデルNexusは、BLEU-4スコア31.4を達成して複数の基準モデルを上回り、反復的な設計プロセスの有効性を実証します。この研究は、現代のビジョン - 言語作業の重要なアーキテクチャ原理を理解するための明確で複製可能な青写真を提供します。