Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations

Created by
  • Haebom
Category
Empty

저자

Linke Ouyang, Yuan Qu, Hongbin Zhou, Jiawei Zhu, Rui Zhang, Qunshu Lin, Bin Wang, Zhiyuan Zhao, Man Jiang, Xiaomeng Zhao, Jin Shi, Fan Wu, Pei Chu, Minghao Liu, Zhenxiang Li, Chao Xu, Bo Zhang, Botian Shi, Zhongying Tu, Conghui He

개요

OmniDocBench는 대규모 언어 모델(LLM)과 검색 증강 생성(RAG) 시스템의 데이터 요구를 충족하는 컴퓨터 비전 분야의 문서 콘텐츠 추출 작업을 위한 새로운 벤치마크입니다. 기존 벤치마크의 문서 유형 범위가 좁고 평가 절차가 단순화되어 현실적이지 않다는 점을 해결하기 위해, 학술 논문, 교과서, 필기 노트, 빽빽하게 인쇄된 신문 등 9가지 문서 소스에 걸쳐 고품질 주석을 제공합니다. 19개의 레이아웃 범주와 15개의 속성 레이블을 사용하여 엔드투엔드 평가부터 작업별 및 속성 기반 분석까지 유연하고 다단계 평가를 지원합니다. 파이프라인 기반 방법과 엔드투엔드 비전-언어 모델을 철저히 평가하여 다양한 문서 유형에 대한 강점과 약점을 밝힙니다. 다양하고 세분화된 문서 파싱 평가를 위한 새로운 표준을 제시하며, 데이터셋과 코드는 https://github.com/opendatalab/OmniDocBench 에서 이용 가능합니다.

시사점, 한계점

시사점:
다양한 문서 유형(학술 논문, 교과서, 필기 노트, 신문 등)을 포함하는 포괄적인 벤치마크 OmniDocBench를 제시합니다.
유연하고 다단계 평가(엔드투엔드, 작업별, 속성 기반)를 지원하여 문서 파싱 모델의 성능을 정확하게 평가할 수 있습니다.
파이프라인 기반 방법과 엔드투엔드 비전-언어 모델의 강점과 약점을 다양한 문서 유형에 대해 분석하여 향후 연구 방향을 제시합니다.
문서 파싱 분야의 공정하고 다양하며 세분화된 평가를 위한 새로운 표준을 제시합니다.
한계점:
현재 벤치마크에 포함된 문서 유형의 종류가 향후 더욱 다양해질 필요가 있습니다.
평가 지표의 추가적인 개선이나 새로운 지표 제안을 통해 더욱 섬세한 평가가 가능할 수 있습니다.
OmniDocBench의 규모가 더욱 확장되어 더욱 다양한 문서 데이터를 포함할 수 있습니다.
👍