본 논문은 지식 기반 시각 질의 응답(KB-VQA) 문제를 해결하기 위해 시각-언어 검색 증강 생성(RAG) 방식을 개선한 연구입니다. 기존의 시각-언어 RAG 시스템은 다양한 모달리티와 지식의 세분성으로 인해 다중 모달 검색에 어려움을 겪었습니다. 이에 본 논문에서는 조잡한 검색에서 세분화된 검색으로 이어지는 다단계 검색을 통해 다양한 세분성과 모달리티를 조화시키는 다중 모달 RAG 시스템을 제안합니다. 먼저, 다양한 모달리티 간의 지식 세분성을 맞추는 광범위한 초기 검색을 수행하고, 이후 다중 모달 정보를 포착하여 최상의 엔티티를 선택하기 위한 다중 모달 융합 재순위화를 진행합니다. 마지막으로 텍스트 재순위화를 통해 생성에 필요한 가장 관련성이 높은 세분화된 부분을 필터링합니다. InfoSeek 및 Encyclopedic-VQA 벤치마크에 대한 광범위한 실험을 통해 제안된 방법이 최첨단 검색 성능과 경쟁력 있는 응답 결과를 달성함을 보여줍니다.
시사점, 한계점
•
시사점:
◦
다중 모달 RAG 시스템에서 조잡한 검색에서 세분화된 검색으로의 다단계 접근 방식이 KB-VQA 성능 향상에 효과적임을 제시합니다.
◦
다중 모달 정보 융합 및 재순위화를 통해 더욱 정확한 지식 검색 및 질의 응답이 가능함을 보여줍니다.
◦
InfoSeek 및 Encyclopedic-VQA 벤치마크에서 최첨단 성능을 달성하여 제안된 방법의 우수성을 입증합니다.