ARIAL (Agentic Reasoning for Interpretable Answer Localization)은 문서 시각 질문 응답(Document VQA)을 위한 프레임워크로, 정확한 텍스트 답변 추출과 신뢰할 수 있는 공간적 위치 파악을 동시에 달성합니다. LLM 기반 계획 에이전트를 통해 전문화된 도구를 조정하여 문서를 구조화된 하위 작업으로 분해합니다. OCR 기반 텍스트 추출, 의미 검색을 사용한 컨텍스트 선택, fine-tuned Gemma 3-27B 모델을 통한 답변 생성, 텍스트-영역 정렬을 통한 바운딩 박스 위치 파악 등을 수행하며, 이를 통해 투명한 추론 과정을 생성하고 도구 수준의 감사를 가능하게 합니다. DocVQA, FUNSD, CORD, SROIE 벤치마크에서 기존 최고 방법인 DLaVA보다 높은 성능을 달성했습니다.