DocSeeker: Structured Visual Reasoning with Evidence Grounding for Long Document Understanding

Created by

Haebom

저자

Hao Yan, Yuliang Liu, Xingchen Liu, Yuyi Zhang, Minghui Liao, Jihao Wu, Wei Chen, Xiang Bai

💡 개요

본 논문은 긴 문서 이해에서 다중모드 대규모 언어 모델(MLLM)의 성능 저하 문제를 해결하기 위해 제안된 DocSeeker 모델을 소개합니다. DocSeeker는 분석, 지역화, 추론의 구조화된 워크플로우를 통해 문서 내 핵심 정보를 효율적으로 찾아내고 이를 기반으로 답변을 생성합니다. 두 단계 학습 프레임워크와 메모리 제약을 완화하는 전략을 통해 DocSeeker는 긴 문서 이해 작업에서 탁월한 성능을 달성했습니다.

🔑 시사점 및 한계

•

DocSeeker는 긴 문서에서 발생하는 신호 대 잡음비(SNR) 저하 및 감독 부족 문제를 효과적으로 해결하며, 특히 짧은 문서에서 학습한 모델이 매우 긴 문서까지 일반화될 수 있음을 보여줍니다.

•

제안된 구조화된 추론 워크플로우는 단순히 답변을 생성하는 것을 넘어, 근거 증거를 정확히 찾아내는 능력을 강화하여 MLLM의 신뢰성을 높입니다.

•

현재 모델은 주로 텍스트 기반의 긴 문서 이해에 초점을 맞추고 있으며, 실제 적용 시 발생할 수 있는 다양한 유형의 비정형 데이터나 복잡한 시각적 정보에 대한 이해도를 높이기 위한 추가적인 연구가 필요합니다.

PDF 보기

Made with Slashpage