Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CoRe-MMRAG: Cross-Source Knowledge Reconciliation for Multimodal RAG

Created by
  • Haebom

저자

Yang Tian, Fan Liu, Jingyuan Zhang, Victoria W., Yupeng Hu, Liqiang Nie

개요

본 논문은 다중 모달 대규모 언어 모델의 성능 향상을 위해 외부에서 검색된 다중 모달 지식을 통합하는 다중 모달 검색 증강 생성(MMRAG)의 두 가지 주요 과제, 즉 매개변수 지식과 검색된 지식 간의 불일치(PRKI) 및 시각적, 텍스트적 지식 간의 불일치(VTKI)를 해결하는 새로운 프레임워크인 CoRe-MMRAG를 제안합니다. CoRe-MMRAG는 매개변수 지식으로부터 내부 응답을 생성하고, 공동 유사성 평가를 통해 가장 관련성이 높은 다중 모달 증거를 선택하여 외부 응답을 생성한 후, 두 응답을 통합하여 신뢰할 수 있는 답변을 생성하는 4단계 파이프라인을 따릅니다. 특수한 훈련 방식을 통해 지식 소스 식별, 다중 모달 통합 및 통합된 답변 생성을 향상시킵니다. KB-VQA 벤치마크 실험 결과, CoRe-MMRAG는 기준 방법보다 상당한 성능 향상을 달성하여 InfoSeek에서 5.6%, Encyclopedic-VQA에서 9.3%의 성능 향상을 보였습니다.

시사점, 한계점

시사점:
다중 모달 RAG의 두 가지 주요 과제인 PRKI와 VTKI를 효과적으로 해결하는 새로운 프레임워크 CoRe-MMRAG 제시.
CoRe-MMRAG는 KB-VQA 벤치마크에서 기존 방법 대비 상당한 성능 향상을 보임 (InfoSeek 5.6%, Encyclopedic-VQA 9.3%).
특수 훈련 방식을 통해 지식 소스 식별, 다중 모달 통합, 답변 생성 개선.
한계점:
CoRe-MMRAG의 성능 향상이 특정 KB-VQA 벤치마크에 국한될 가능성. 다양한 데이터셋에 대한 추가 실험 필요.
프레임워크의 복잡성으로 인한 계산 비용 증가 가능성. 효율성 개선 연구 필요.
특수 훈련 방식의 세부적인 설명 부족. 훈련 과정에 대한 자세한 분석 필요.
👍