यह शोधपत्र कंप्यूटर विज़न और प्राकृतिक भाषा प्रसंस्करण के संयोजन पर एक इमेज कैप्शनिंग मॉडल को व्यवस्थित रूप से विकसित करता है। हम पाँच मॉडल (जेनेसिस से नेक्सस तक) प्रस्तुत करते हैं, जिनमें एक साधारण CNN-LSTM एनकोडर-डिकोडर से लेकर एक कुशल ध्यान तंत्र वाले उन्नत नेक्सस मॉडल तक शामिल हैं। हम प्रत्येक मॉडल में वास्तुशिल्प सुधारों से जुड़े प्रदर्शन परिवर्तनों का प्रयोगात्मक विश्लेषण करते हैं। विशेष रूप से, हम प्रदर्शित करते हैं कि CNN-LSTM आर्किटेक्चर में केवल विज़ुअल बैकबोन को अपग्रेड करने से प्रदर्शन में गिरावट आ सकती है, जो ध्यान तंत्र के महत्व को उजागर करता है। MS COCO 2017 डेटासेट पर प्रशिक्षित अंतिम मॉडल, Nexus, 31.4 का BLEU-4 स्कोर प्राप्त करता है, जो कई आधारभूत मॉडलों से बेहतर प्रदर्शन करता है और पुनरावृत्त डिज़ाइन प्रक्रिया की प्रभावशीलता को प्रमाणित करता है। यह कार्य आधुनिक दृष्टि-भाषा कार्यों के मूल वास्तुशिल्प सिद्धांतों को समझने के लिए एक स्पष्ट और अनुकरणीय खाका प्रदान करता है।