Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MMKB-RAG: A Multi-Modal Knowledge-Based Retrieval-Augmented Generation Framework

Created by
  • Haebom

저자

Zihan Ling, Zhiyao Guo, Yixuan Huang, Yi An, Shuai Xiao, Jinsong Lan, Xiaoyong Zhu, Bo Zheng

개요

본 논문은 최신 대규모 언어 모델(LLM)과 다중 모달 LLM의 한계점을 해결하기 위해, 다중 모달 지식 기반 검색 증강 생성(MMKB-RAG)이라는 새로운 프레임워크를 제안합니다. 기존 RAG의 한계인 부정확하거나 무관한 데이터 검색 문제를 해결하기 위해, 모델의 지식 경계를 활용하여 동적으로 의미 태그를 생성하고, 이를 통해 검색된 문서를 공동 필터링하여 가장 관련성이 높고 정확한 참조만을 유지하는 전략을 사용합니다. E-VQA 및 InfoSeek 데이터셋을 이용한 실험 결과, 기존 최첨단 MLLM 및 RAG 프레임워크에 비해 정확성과 견고성이 크게 향상됨을 보여줍니다.

시사점, 한계점

시사점:
다중 모달 LLM의 정확성과 신뢰성 향상에 기여하는 새로운 RAG 프레임워크 제시.
모델의 지식 경계를 활용한 동적 의미 태그 생성을 통한 효과적인 문서 필터링 전략 제시.
E-VQA 및 InfoSeek 데이터셋에서 기존 최첨단 모델 대비 성능 향상을 실험적으로 검증.
한계점:
제안된 방법의 일반화 성능에 대한 추가적인 연구 필요.
다양한 데이터셋 및 작업에 대한 추가적인 실험 필요.
의미 태그 생성 과정의 복잡성 및 계산 비용에 대한 고려 필요.
👍