본 논문은 시각적 문서 이해 분야에서 세밀한 이해와 유연한 사용자 상호작용을 위해 다중 모달 대규모 언어 모델(MLLM)의 grounding 및 referring 기능의 발전이 아직 미흡하다는 점을 지적하며, 이를 해결하기 위해 DOcument Grounding and Referring data engine (DOGR-Engine)을 제안합니다. DOGR-Engine은 두 가지 유형의 고품질 세밀한 문서 데이터, 즉 (1) 텍스트 위치 파악 및 인식 개선을 위한 다중 입자 분석 데이터와 (2) 대화 및 추론에서 MLLM의 grounding 및 referring 기능을 활성화하기 위한 instruction-tuning 데이터를 생성합니다. 이를 바탕으로 세 가지 문서 유형(차트, 포스터, PDF 문서)에 걸쳐 일곱 가지 grounding 및 referring 작업을 포함하는 벤치마크인 DOGR-Bench를 구축하고, 생성된 데이터를 활용하여 텍스트 위치 파악 및 인식에 뛰어나며 대화 및 추론 중 중요한 텍스트 정보를 정확하게 grounding 및 referring하는 강력한 기준 모델인 DOGR을 개발합니다. DOGR은 문서 이해를 보다 세밀한 수준으로 발전시키고 유연한 상호 작용 패러다임을 가능하게 합니다.
시사점, 한계점
•
시사점:
◦
다중 모달 대규모 언어 모델의 시각적 문서 이해 능력 향상에 기여하는 새로운 데이터 엔진과 벤치마크를 제시합니다.
◦
세밀한 수준의 문서 이해를 위한 새로운 기준 모델을 제시합니다.
◦
grounding 및 referring 기능을 향상시킨 텍스트 위치 파악 및 인식 기술을 제시합니다.
◦
더욱 유연하고 효율적인 사용자-문서 상호작용 패러다임을 제시합니다.
•
한계점:
◦
DOGR-Engine 및 DOGR 모델의 일반화 성능에 대한 추가적인 평가가 필요합니다.
◦
다양한 문서 유형 및 복잡도에 대한 확장성을 추가적으로 검증해야 합니다.
◦
현재 벤치마크에 포함된 작업의 종류가 제한적일 수 있습니다. 더욱 다양한 작업들을 추가하여 벤치마크의 포괄성을 높일 필요가 있습니다.