[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Spatially Grounded Explanations in Vision Language Models for Document Visual Question Answering

Created by
  • Haebom

저자

Maximiliano Hormazabal Lagos, Hector Cerezo-Costas, Dimosthenis Karatzas

개요

EaGERS는 완전한 무훈련 및 모델 비의존적 파이프라인으로, (1) 비전 언어 모델을 통해 자연어 근거를 생성하고, (2) 구성 가능한 그리드에 대한 다중 모달 임베딩 유사성을 계산하여 다수결 투표를 통해 이러한 근거를 공간적 하위 영역에 근거를 두고, (3) 마스크된 이미지에서 선택된 관련 영역에서만 응답 생성을 제한합니다. DocVQA 데이터셋에 대한 실험 결과, 최적 구성은 정확 일치 정확도 및 평균 정규화 Levenshtein 유사성 지표에서 기본 모델을 능가할 뿐만 아니라 추가 모델 미세 조정 없이 DocVQA의 투명성과 재현성을 향상시키는 것으로 나타났습니다.

시사점, 한계점

시사점:
모델 미세 조정 없이 DocVQA 성능 향상 및 투명성, 재현성 증대
훈련이 필요 없는 모델 독립적인 파이프라인 제시
비전-언어 모델을 활용한 자연어 근거 생성 및 공간적 근거 제시
한계점:
구체적인 한계점은 논문에서 명시적으로 언급되지 않음. 다만, 특정 데이터셋(DocVQA)에 대한 실험 결과만 제시되었으므로 다른 데이터셋으로의 일반화 가능성은 추가 연구가 필요할 수 있음.
다수결 투표 방식의 한계로 인해, 정확하지 않은 근거 선택 가능성 존재.
구성 가능한 그리드 크기 및 해상도 등 하이퍼파라미터 최적화에 대한 논의 부족.
👍