Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ReAG: Reasoning-Augmented Generation for Knowledge-based Visual Question Answering

Created by
  • Haebom
Category
Empty

저자

Alberto Compagnoni, Marco Morini, Sara Sarto, Federico Cocchi, Davide Caffagni, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara

개요

본 논문은 텍스트, 이미지, 비디오를 함께 이해하는 다중 모달 대형 언어 모델 (MLLM)의 성능 향상을 위해, 외부 문서를 검색하여 답변 생성을 돕는 Reasoning-Augmented Multimodal RAG (ReAG) 방식을 제안한다. 특히, 도메인 특화 및 지식 집약적인 질문에 취약한 기존 MLLM의 한계를 극복하고자, 거친 및 세밀한 검색을 결합하고, 관련 없는 구절을 필터링하는 비평가 모델을 활용하여 고품질의 추가 컨텍스트를 제공한다. 강화 학습 기반의 다단계 훈련 전략을 통해 검색된 콘텐츠에 대한 추론 능력을 향상시키고, Encyclopedic-VQA 및 InfoSeek 데이터셋에서 기존 방법론 대비 향상된 성능을 입증하였다.

시사점, 한계점

시사점:
도메인 특화 및 지식 집약적인 질문에 대한 MLLM의 성능을 향상시키는 새로운 접근 방식 제시 (ReAG).
거친/세밀한 검색 및 비평가 모델을 결합하여 검색된 정보의 품질을 향상시킴.
강화 학습 기반의 다단계 훈련을 통해 추론 능력 강화.
Encyclopedic-VQA 및 InfoSeek 데이터셋에서 기존 방법론 대비 우수한 성능 입증.
소스 코드 공개를 통해 연구의 재현 가능성 및 활용성 증대.
한계점:
논문에 구체적인 한계점 언급은 없음.
👍