문서 시각 질문 응답(Document VQA)에서 정확한 텍스트 답변 추출과 함께 문서 이미지 내 답변 위치를 정확하게 찾는 것은 중요한 과제이다. ARIAL은 LLM 기반 계획 에이전트를 통해 특화된 도구들을 조정하여 정확한 답변 추출과 신뢰할 수 있는 공간적 위치 파악을 동시에 달성하는 모듈형 프레임워크이다. TrOCR을 사용한 OCR 기반 텍스트 추출, 의미 검색을 사용한 검색 증강 컨텍스트 선택, fine-tuned Gemma 3-27B 모델을 통한 답변 생성, 텍스트-영역 정렬을 통한 명시적 경계 상자 위치 파악 등 구조화된 하위 작업을 수행한다. 이 모듈형 아키텍처는 투명한 추론 과정을 생성하여 도구 수준의 감사 기능과 독립적인 구성 요소 최적화를 가능하게 한다. DocVQA, FUNSD, CORD, SROIE 4개의 벤치마크에서 텍스트 정확도(ANLS)와 공간적 정밀도(IoU 0.50~0.95에서의 mAP)를 평가한 결과, 모든 데이터 세트에서 최첨단 결과를 달성했다.