Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Where is this coming from? Making groundedness count in the evaluation of Document VQA models

Created by
  • Haebom
Category
Empty

저자

Armineh Nourbakhsh, Siddharth Parekh, Pranav Shetty, Zhao Jin, Sameena Shah, Carolyn Rose

개요

본 논문은 기존 Document Visual Question Answering (VQA) 모델 평가 지표의 한계점을 지적하고, 새로운 평가 방법론을 제안합니다. 기존 지표는 모델의 출력이 이미지와 텍스트에 얼마나 잘 근거하는지(groundedness)를 고려하지 않아, 환각(hallucination)이나 심각한 의미 오류가 정확한 출력과 동일하게 취급되는 문제점을 가지고 있습니다. 따라서 제안된 방법론은 출력의 의미적 특징과 입력 문서 내 다중 모드(multimodal) 위치를 고려하여 예측의 근거성을 평가합니다. 사용자의 선호도에 따라 점수를 구성할 수 있도록 매개변수화되어 있으며, 인간 판단을 통해 유효성을 검증하고 기존 리더보드에 미치는 영향을 분석합니다. 결과적으로 제안된 방법은 모델의 강건성을 더 잘 나타내는 점수를 생성하고, 더 잘 보정된 답변에 더 높은 점수를 부여하는 경향을 보입니다.

시사점, 한계점

시사점:
기존 VQA 모델 평가 지표의 한계를 명확히 제시하고, groundedness를 고려한 새로운 평가 방법론을 제안.
사용자 맞춤형 평가가 가능하도록 매개변수화된 점수 시스템 제공.
인간 판단을 통해 새로운 평가 방법론의 유효성 검증.
새로운 평가 방법론이 모델의 강건성을 더 잘 반영하고, 잘 보정된 답변에 높은 점수를 부여함을 보여줌.
기존 리더보드 순위에 영향을 미칠 수 있는 잠재력을 시사.
한계점:
제안된 평가 방법론의 일반화 가능성에 대한 추가적인 연구 필요.
인간 판단에 기반한 평가의 주관성 및 한계 존재.
특정 매개변수 설정에 따라 평가 결과가 달라질 수 있음.
👍