Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

OMGM: Orchestrate Multiple Granularities and Modalities for Efficient Multimodal Retrieval

Created by
  • Haebom

저자

Wei Yang, Jingjing Fu, Rui Wang, Jinyu Wang, Lei Song, Jiang Bian

개요

본 논문은 지식 기반 시각 질의 응답(KB-VQA) 문제를 해결하기 위해 시각-언어 검색 증강 생성(RAG) 방식을 개선한 연구입니다. 기존의 시각-언어 RAG 시스템은 다양한 모달리티와 지식의 세분성으로 인해 다중 모달 검색에 어려움을 겪었습니다. 이에 본 논문에서는 조잡한 검색에서 세분화된 검색으로 이어지는 다단계 검색을 통해 다양한 세분성과 모달리티를 조화시키는 다중 모달 RAG 시스템을 제안합니다. 먼저, 다양한 모달리티 간의 지식 세분성을 맞추는 광범위한 초기 검색을 수행하고, 이후 다중 모달 정보를 포착하여 최상의 엔티티를 선택하기 위한 다중 모달 융합 재순위화를 진행합니다. 마지막으로 텍스트 재순위화를 통해 생성에 필요한 가장 관련성이 높은 세분화된 부분을 필터링합니다. InfoSeek 및 Encyclopedic-VQA 벤치마크에 대한 광범위한 실험을 통해 제안된 방법이 최첨단 검색 성능과 경쟁력 있는 응답 결과를 달성함을 보여줍니다.

시사점, 한계점

시사점:
다중 모달 RAG 시스템에서 조잡한 검색에서 세분화된 검색으로의 다단계 접근 방식이 KB-VQA 성능 향상에 효과적임을 제시합니다.
다중 모달 정보 융합 및 재순위화를 통해 더욱 정확한 지식 검색 및 질의 응답이 가능함을 보여줍니다.
InfoSeek 및 Encyclopedic-VQA 벤치마크에서 최첨단 성능을 달성하여 제안된 방법의 우수성을 입증합니다.
한계점:
제안된 방법의 일반화 성능에 대한 추가적인 연구가 필요합니다.
다양한 유형의 지식 기반 및 질의에 대한 로버스트성 평가가 추가적으로 필요합니다.
계산 비용이 높을 수 있는 다단계 검색 과정의 효율성 개선이 필요할 수 있습니다.
👍