Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ARIAL: An Agentic Framework for Document VQA with Precise Answer Localization

Created by
  • Haebom
Category
Empty

저자

Ahmad Mohammadshirazi, Pinaki Prasad Guha Neogi, Dheeraj Kulshrestha, Rajiv Ramnath

개요

ARIAL (Agentic Reasoning for Interpretable Answer Localization)은 문서 시각 질문 응답(Document VQA)을 위한 프레임워크로, 정확한 텍스트 답변 추출과 신뢰할 수 있는 공간적 위치 파악을 동시에 달성합니다. LLM 기반 계획 에이전트를 통해 전문화된 도구를 조정하여 문서를 구조화된 하위 작업으로 분해합니다. OCR 기반 텍스트 추출, 의미 검색을 사용한 컨텍스트 선택, fine-tuned Gemma 3-27B 모델을 통한 답변 생성, 텍스트-영역 정렬을 통한 바운딩 박스 위치 파악 등을 수행하며, 이를 통해 투명한 추론 과정을 생성하고 도구 수준의 감사를 가능하게 합니다. DocVQA, FUNSD, CORD, SROIE 벤치마크에서 기존 최고 방법인 DLaVA보다 높은 성능을 달성했습니다.

시사점, 한계점

시사점:
Agentic orchestration 방식을 통해 문서 VQA의 성능과 해석 가능성을 동시에 향상시켰습니다.
전문화된 도구들을 모듈식으로 구성하여 각 구성 요소의 독립적인 최적화를 가능하게 했습니다.
해석 가능한 문서 AI 시스템 개발에 기여했습니다.
DocVQA, FUNSD, CORD, SROIE 데이터셋에서 SOTA 달성
한계점:
구체적인 한계점은 논문에 명시되어 있지 않음.
👍