Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

BiblioPage: A Dataset of Scanned Title Pages for Bibliographic Metadata Extraction

Created by
  • Haebom
Category
Empty

저자

Jan Kohut, Martin Do\v{c}ekal, Michal Hradi\v{s}, Marek Va\v{s}ko

개요

BiblioPage는 다양한 형식의 역사적 및 현실 세계 아카이브에서 수동으로 서지 메타데이터를 디지털화하는 데 드는 시간과 노력을 줄이기 위해 고안된, 주석이 달린 스캔된 제목 페이지 데이터셋입니다. 체코 14개 도서관에서 수집한 약 2,000개의 단행본 제목 페이지로 구성되며, 제목, 기여자, 출판 메타데이터 등 16개의 서지 속성과 바운딩 박스 형태의 정확한 위치 정보가 포함되어 있습니다. YOLO 및 DETR과 같은 객체 탐지 모델과 Transformer 기반 OCR을 결합하여 구조화된 정보를 추출하는 실험을 진행하여 최대 mAP 52, F1 점수 59를 달성했으며, Llama 3.2-Vision 및 GPT-4o 등 다양한 시각적 거대 언어 모델을 평가하여 최대 F1 점수 67을 달성했습니다. BiblioPage는 서지 메타데이터 추출을 위한 현실 세계 벤치마크 역할을 하며, 문서 이해, 문서 질의응답 및 문서 정보 추출에 기여합니다. 데이터셋과 평가 스크립트는 GitHub에서 이용 가능합니다.

시사점, 한계점

시사점:
서지 메타데이터 추출 자동화를 위한 새로운 데이터셋 제공.
다양한 출판 시기, 활자체 스타일 및 레이아웃 구조를 포함하는 다양한 데이터셋.
객체 탐지 모델과 시각적 거대 언어 모델을 이용한 서지 메타데이터 추출 성능 평가.
문서 이해, 문서 질의응답 및 문서 정보 추출 분야에 기여.
실제 세계 문제 해결을 위한 벤치마크 데이터셋 제공.
한계점:
데이터셋의 크기가 상대적으로 작음(약 2,000개의 제목 페이지).
데이터셋이 체코 도서관의 자료에만 국한됨.
객체 탐지 및 시각적 거대 언어 모델의 성능이 완벽하지 않음 (최대 F1 점수 67).
다양한 언어 및 문자체에 대한 일반화 성능에 대한 추가 연구 필요.
👍