Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Benchmarking Visual LLMs Resilience to Unanswerable Questions on Visually Rich Documents

Created by
  • Haebom
Category
Empty

저자

Davide Napolitano, Luca Cagliero, Fabrizio Battiloro

개요

시각적 대규모 언어 모델(VLLMs)의 발전은 텍스트와 시각적 요소를 모두 포함하는 시각적으로 풍부한 문서(VRDs)의 자동 이해에 혁명을 가져왔습니다. VLLMs는 다중 페이지 VRDs에 대한 시각적 질의 응답(VQA)에서 뛰어나지만, 답할 수 없는 질문을 감지하는 능력은 여전히 열린 연구 문제입니다. 이 연구는 관련 개념 간의 교환 또는 그럴듯한 질문 공식화로 인해 발생하는 미묘한 손상으로 인해 유효해 보이지만 답할 수 없는 그럴듯한 질문에 대한 VLLMs의 견고성을 탐구합니다. VRD-UQA(VISUALLY RICH DOCUMENT UNANSWERABLE QUESTION ANSWERING)를 제시하여 여러 차원에서 그럴듯하지만 답할 수 없는 질문에 대한 VLLMs의 복원력을 평가하는 벤치마크를 제공합니다. 기존 VQA 데이터세트의 질문을 자동으로 변경하고, VLLM-as-a-judge 접근 방식을 사용하여 답할 수 없음을 확인한 후, VLLMs의 성능을 철저히 평가합니다.

시사점, 한계점

VLLMs가 그럴듯하지만 답할 수 없는 질문을 감지하는 데 한계가 있음을 보여줍니다.
VRD-UQA는 복원력 있는 문서 VQA 시스템 개발을 위한 평가 프레임워크 역할을 할 수 있습니다.
12개의 모델에 대한 실험을 통해 다양한 유형의 손상(NLP 엔티티, 문서 요소, 레이아웃)의 영향을 분석합니다.
In-context learning을 기반으로 한 다양한 지식 주입 전략(OCR, 다중 페이지 선택, 또는 답할 수 없음의 가능성)의 효과를 평가합니다.
👍