DLaVA: Document Language and Vision Assistant for Answer Localization with Enhanced Interpretability and Trustworthiness
Created by
Haebom
저자
Ahmad Mohammadshirazi, Pinaki Prasad Guha Neogi, Ser-Nam Lim, Rajiv Ramnath
개요
본 논문은 문서 시각 질의응답(VQA)에서 신뢰성, 해석 가능성, 설명 가능성을 향상시키기 위해 훈련이 필요 없는 새로운 파이프라인인 DLaVA를 제안합니다. DLaVA는 다중 모달 대규모 언어 모델(MLLM)을 활용하여 제로샷 답변 위치 확인을 수행합니다. 기존의 반복적인 OCR이나 사고 연쇄 추론에 의존하지 않고 고유한 경계 상자 ID를 사용하여 텍스트 영역을 구성하는 혁신적인 OCR-free 접근 방식을 통해 공간적 맥락을 유지하면서 계산 복잡성을 크게 줄입니다. 평가 프로토콜을 IoU 지표와 ANLS를 통합하여 개선함으로써 텍스트 정확도뿐 아니라 공간 정확도까지 고려하여 AI 환각의 위험을 줄이고 신뢰성을 향상시킵니다. 벤치마크 데이터셋 실험 결과, 최첨단 기술과 비교하여 경쟁력 있는 성능을 보이며, 계산 복잡성을 크게 줄이고 고위험 응용 분야에서 정확도와 신뢰성을 향상시켰습니다. DLaVA에 사용된 코드와 데이터셋은 https://github.com/ahmad-shirazi/AnnotMLLM 에서 이용 가능합니다.