Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ARIAL: An Agentic Framework for Document VQA with Precise Answer Localization

Created by
  • Haebom
Category
Empty

저자

Ahmad Mohammadshirazi, Pinaki Prasad Guha Neogi, Dheeraj Kulshrestha, Rajiv Ramnath

개요

문서 시각 질문 응답(Document VQA)에서 정확한 텍스트 답변 추출과 함께 문서 이미지 내 답변 위치를 정확하게 찾는 것은 중요한 과제이다. ARIAL은 LLM 기반 계획 에이전트를 통해 특화된 도구들을 조정하여 정확한 답변 추출과 신뢰할 수 있는 공간적 위치 파악을 동시에 달성하는 모듈형 프레임워크이다. TrOCR을 사용한 OCR 기반 텍스트 추출, 의미 검색을 사용한 검색 증강 컨텍스트 선택, fine-tuned Gemma 3-27B 모델을 통한 답변 생성, 텍스트-영역 정렬을 통한 명시적 경계 상자 위치 파악 등 구조화된 하위 작업을 수행한다. 이 모듈형 아키텍처는 투명한 추론 과정을 생성하여 도구 수준의 감사 기능과 독립적인 구성 요소 최적화를 가능하게 한다. DocVQA, FUNSD, CORD, SROIE 4개의 벤치마크에서 텍스트 정확도(ANLS)와 공간적 정밀도(IoU 0.50~0.95에서의 mAP)를 평가한 결과, 모든 데이터 세트에서 최첨단 결과를 달성했다.

시사점, 한계점

시사점:
특화된 도구의 에이전트적 조정을 통해 성능과 해석 가능성을 동시에 향상시킴.
신뢰할 수 있고 설명 가능한 문서 AI 시스템 개발에 기여.
DocVQA, FUNSD, CORD, SROIE 등 다양한 벤치마크에서 기존 최고 성능을 뛰어넘는 결과를 달성.
모듈형 아키텍처는 투명한 추론 과정과 도구 수준의 감사를 가능하게 함.
한계점:
논문에서 한계점에 대한 직접적인 언급은 없음. (단, 연구의 구체적인 한계는 논문 전문을 확인해야 함.)
👍