Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

DocVAL: Validated Chain-of-Thought Distillation for Grounded Document VQA

Created by
  • Haebom
Category
Empty

저자

Ahmad Mohammadshirazi, Pinaki Prasad Guha Neogi, Dheeraj Kulshrestha, Rajiv Ramnath

개요

본 논문 DocVQA(Document Visual Question Answering)에서 효율성과 정확성 사이의 trade-off 문제를 해결하기 위해, 대형 Teacher 모델의 공간 추론 능력을 배포 가능한 Student VLM으로 이전하는 DocVAL(validated chain-of-thought distillation framework)을 제안합니다. DocVAL은 검증된 훈련 신호, 정답 정확성 및 기하학적 일관성을 보장하는 다중 모듈 검증기(VAL), 그리고 VAL 피드백을 활용한 반복적 개선을 통해 Student 모델(Gemma-3 12B)의 성능을 향상시킵니다. 결과적으로, DocVAL은 DocVQA에서 91.4% ANLS 및 82.4% mAP를 달성했으며, 텍스트 감지나 OCR 없이도 뛰어난 성능을 보입니다. 또한, 공간 추론 연구 발전을 위해 95,000개의 고품질, 검증된 CoT 흔적을 공개합니다.

시사점, 한계점

시사점:
대형 Teacher 모델의 공간 추론 능력을 Student 모델로 이전하는 효율적인 DocVQA 프레임워크 제시.
검증된 훈련 신호, 다중 모듈 검증기(VAL), 반복적 개선을 통한 Student 모델 성능 향상.
Gemma-3 12B 모델을 사용하여 DocVQA에서 91.4% ANLS 및 82.4% mAP 달성.
텍스트 감지나 OCR 없이도 우수한 성능을 보이는 순수한 VLM 구현.
공간 추론 연구 발전을 위한 고품질 CoT 흔적 공개.
한계점:
특정 VLM 모델(Gemma-3 12B)에 초점을 맞춰, 다른 모델로의 일반화 가능성에 대한 추가 연구 필요.
VAL의 복잡성과 계산 비용에 대한 추가적인 분석 필요.
학습 데이터의 품질과 양에 대한 의존성.
👍