Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Knowledge Completes the Vision: A Multimodal Entity-aware Retrieval-Augmented Generation Framework for News Image Captioning

Created by
  • Haebom
Category
Empty

저자

Xiaoxing You, Qiang Huang, Lingyu Li, Chi Zhang, Xiaopeng Liu, Min Zhang, Jun Yu

개요

본 논문은 뉴스 기사 이미지 캡셔닝 분야에서, 시각적 내용과 관련 기사의 맥락적 단서를 결합하여 저널리즘적으로 유익한 설명을 생성하는 것을 목표로 한다. 기존 방법들의 정보 불완전성, 약한 교차 양상 정렬, 최적화되지 않은 시각적 개체 접지 등의 문제를 해결하기 위해, MERGE라는 멀티모달 개체 인식 검색 증강 생성 프레임워크를 제안한다. MERGE는 텍스트, 시각 및 구조화된 지식을 통합하는 개체 중심 멀티모달 지식 기반 (EMKB)을 구축하여 배경 지식 검색을 강화하고, 다단계 가설-캡션 전략을 통해 교차 양상 정렬을 개선하며, 이미지 내용에 의해 안내되는 동적 검색을 통해 시각적 개체 매칭을 향상시킨다. GoodNews, NYTimes800k, Visual News 데이터셋에 대한 실험을 통해 MERGE가 기존 최첨단 방법들을 능가하며, 강력한 견고성과 도메인 적응성을 입증한다.

시사점, 한계점

시사점:
멀티모달 개체 중심 지식 기반 (EMKB) 구축을 통해 뉴스 이미지 캡셔닝 성능을 향상시켰다.
교차 양상 정렬 및 시각적 개체 매칭 개선을 위한 새로운 접근 방식을 제시했다.
다양한 데이터셋에서 우수한 성능을 보이며 일반화 능력을 입증했다.
한계점:
논문에 구체적인 한계점 언급은 없음.
👍