[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

DOGR: Towards Versatile Visual Document Grounding and Referring

Created by
  • Haebom

저자

Yinan Zhou, Yuxin Chen, Haokun Lin, Shuyu Yang, Zhongang Qi, Chen Ma, Li Zhu, Ying Shan

개요

본 논문은 시각적 문서 이해 분야에서 세분화된 데이터셋과 종합적인 벤치마크의 부족으로 인해 여전히 미개발된 멀티모달 대규모 언어 모델(MLLM)의 grounding 및 referring 기능을 향상시키기 위해 DOcument Grounding and Referring data engine (DOGR-Engine)을 제안한다. DOGR-Engine은 두 가지 유형의 고품질 세분화된 문서 데이터, 즉 텍스트 위치 파악 및 인식 개선을 위한 다중 입자 분석 데이터와 MLLM의 대화 및 추론에서 grounding 및 referring 기능을 활성화하기 위한 instruction-tuning 데이터를 생성한다. 생성된 데이터를 사용하여 세 가지 문서 유형(차트, 포스터, PDF 문서)에서 7가지 grounding 및 referring 작업을 다루는 벤치마크인 DOGR-Bench를 구축하고, 텍스트 위치 파악 및 인식에 뛰어나며 대화 및 추론 중 중요한 텍스트 정보를 정확하게 grounding 및 referring하는 강력한 기준 모델인 DOGR을 개발한다. 결과적으로 더욱 세분화된 문서 이해와 유연한 상호 작용 패러다임을 가능하게 한다.

시사점, 한계점

시사점:
시각적 문서 이해를 위한 고품질의 세분화된 데이터셋인 DOGR-Bench 제공.
MLLM의 grounding 및 referring 기능 향상에 기여하는 DOGR-Engine 개발.
텍스트 위치 파악 및 인식, grounding 및 referring 기능 모두에서 우수한 성능을 보이는 DOGR 모델 제시.
세분화된 문서 이해 및 유연한 상호 작용 패러다임 가능성 제시.
한계점:
DOGR-Engine 및 DOGR 모델의 일반화 성능에 대한 추가적인 연구 필요.
DOGR-Bench에 포함된 문서 유형 및 작업의 다양성 확장 필요.
실제 응용 분야에서의 DOGR 모델의 성능 평가 필요.
👍