본 논문은 시각적 문서 이해 분야에서 세분화된 데이터셋과 종합적인 벤치마크의 부족으로 인해 여전히 미개발된 멀티모달 대규모 언어 모델(MLLM)의 grounding 및 referring 기능을 향상시키기 위해 DOcument Grounding and Referring data engine (DOGR-Engine)을 제안한다. DOGR-Engine은 두 가지 유형의 고품질 세분화된 문서 데이터, 즉 텍스트 위치 파악 및 인식 개선을 위한 다중 입자 분석 데이터와 MLLM의 대화 및 추론에서 grounding 및 referring 기능을 활성화하기 위한 instruction-tuning 데이터를 생성한다. 생성된 데이터를 사용하여 세 가지 문서 유형(차트, 포스터, PDF 문서)에서 7가지 grounding 및 referring 작업을 다루는 벤치마크인 DOGR-Bench를 구축하고, 텍스트 위치 파악 및 인식에 뛰어나며 대화 및 추론 중 중요한 텍스트 정보를 정확하게 grounding 및 referring하는 강력한 기준 모델인 DOGR을 개발한다. 결과적으로 더욱 세분화된 문서 이해와 유연한 상호 작용 패러다임을 가능하게 한다.
시사점, 한계점
•
시사점:
◦
시각적 문서 이해를 위한 고품질의 세분화된 데이터셋인 DOGR-Bench 제공.
◦
MLLM의 grounding 및 referring 기능 향상에 기여하는 DOGR-Engine 개발.
◦
텍스트 위치 파악 및 인식, grounding 및 referring 기능 모두에서 우수한 성능을 보이는 DOGR 모델 제시.