Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

DOGR: Towards Versatile Visual Document Grounding and Referring

Created by
  • Haebom

저자

Yinan Zhou, Yuxin Chen, Haokun Lin, Yichen Wu, Shuyu Yang, Zhongang Qi, Chen Ma, Li Zhu, Ying Shan

개요

본 논문은 시각적 문서 이해 분야에서 세밀한 이해와 유연한 사용자 상호작용을 위해 다중 모달 대규모 언어 모델(MLLM)의 grounding 및 referring 기능의 발전이 아직 미흡하다는 점을 지적하며, 이를 해결하기 위해 DOcument Grounding and Referring data engine (DOGR-Engine)을 제안합니다. DOGR-Engine은 두 가지 유형의 고품질 세밀한 문서 데이터, 즉 (1) 텍스트 위치 파악 및 인식 개선을 위한 다중 입자 분석 데이터와 (2) 대화 및 추론에서 MLLM의 grounding 및 referring 기능을 활성화하기 위한 instruction-tuning 데이터를 생성합니다. 이를 바탕으로 세 가지 문서 유형(차트, 포스터, PDF 문서)에 걸쳐 일곱 가지 grounding 및 referring 작업을 포함하는 벤치마크인 DOGR-Bench를 구축하고, 생성된 데이터를 활용하여 텍스트 위치 파악 및 인식에 뛰어나며 대화 및 추론 중 중요한 텍스트 정보를 정확하게 grounding 및 referring하는 강력한 기준 모델인 DOGR을 개발합니다. DOGR은 문서 이해를 보다 세밀한 수준으로 발전시키고 유연한 상호 작용 패러다임을 가능하게 합니다.

시사점, 한계점

시사점:
다중 모달 대규모 언어 모델의 시각적 문서 이해 능력 향상에 기여하는 새로운 데이터 엔진과 벤치마크를 제시합니다.
세밀한 수준의 문서 이해를 위한 새로운 기준 모델을 제시합니다.
grounding 및 referring 기능을 향상시킨 텍스트 위치 파악 및 인식 기술을 제시합니다.
더욱 유연하고 효율적인 사용자-문서 상호작용 패러다임을 제시합니다.
한계점:
DOGR-Engine 및 DOGR 모델의 일반화 성능에 대한 추가적인 평가가 필요합니다.
다양한 문서 유형 및 복잡도에 대한 확장성을 추가적으로 검증해야 합니다.
현재 벤치마크에 포함된 작업의 종류가 제한적일 수 있습니다. 더욱 다양한 작업들을 추가하여 벤치마크의 포괄성을 높일 필요가 있습니다.
👍