본 논문은 뉴스 기사 이미지 캡셔닝 분야에서, 시각적 내용과 관련 기사의 맥락적 단서를 결합하여 저널리즘적으로 유익한 설명을 생성하는 것을 목표로 한다. 기존 방법들의 정보 불완전성, 약한 교차 양상 정렬, 최적화되지 않은 시각적 개체 접지 등의 문제를 해결하기 위해, MERGE라는 멀티모달 개체 인식 검색 증강 생성 프레임워크를 제안한다. MERGE는 텍스트, 시각 및 구조화된 지식을 통합하는 개체 중심 멀티모달 지식 기반 (EMKB)을 구축하여 배경 지식 검색을 강화하고, 다단계 가설-캡션 전략을 통해 교차 양상 정렬을 개선하며, 이미지 내용에 의해 안내되는 동적 검색을 통해 시각적 개체 매칭을 향상시킨다. GoodNews, NYTimes800k, Visual News 데이터셋에 대한 실험을 통해 MERGE가 기존 최첨단 방법들을 능가하며, 강력한 견고성과 도메인 적응성을 입증한다.