Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

AnnoPage Dataset: Dataset of Non-Textual Elements in Documents with Fine-Grained Categorization

Created by
  • Haebom

저자

Martin Ki\v{s}\v{s}, Michal Hradi\v{s}, Martina Dvo\v{r}akova, Vaclav Jirou\v{s}ek, Filip Kersch

개요

AnnoPage Dataset은 1485년부터 현재까지의 체코어 및 독일어로 작성된 7550페이지의 역사적 문서를 담은 새로운 데이터셋입니다. 19세기 후반과 20세기 초의 문서에 중점을 두고 있으며, 문서 레이아웃 분석 및 객체 탐지 연구를 지원하기 위해 고안되었습니다. 각 페이지는 이미지, 지도, 장식 요소 또는 차트 등 25가지 비텍스트 요소 범주를 나타내는 축 정렬 경계 상자(AABB)로 주석이 달려 있으며, 체코 이미지 문서 처리 방법론을 따릅니다. 전문 사서가 정확성과 일관성을 보장하기 위해 주석을 작성했습니다. 다양성을 높이고 연속성을 유지하기 위해 여러 역사적 문서 데이터셋의 페이지를 통합했습니다. 데이터셋은 개발 및 테스트 하위 집합으로 나뉘며, 테스트 집합은 범주 분포를 유지하도록 신중하게 선택되었습니다. YOLO와 DETR 객체 검출기를 사용한 기준 결과를 제공하여 향후 연구를 위한 기준점을 제시합니다. AnnoPage Dataset은 YOLO 형식의 정답 주석과 함께 Zenodo(https://doi.org/10.5281/zenodo.12788419)에서 공개적으로 이용 가능합니다.

시사점, 한계점

시사점:
역사적 문서의 레이아웃 분석 및 객체 탐지 연구를 위한 새로운 대규모 데이터셋 제공
체코 이미지 문서 처리 방법론 기반의 정확하고 일관된 주석 제공
YOLO 및 DETR 기반의 기준 성능 제공으로 향후 연구의 비교 기준 마련
다양한 역사적 문서 데이터셋 통합으로 데이터의 다양성 확보
공개적으로 접근 가능하여 연구 접근성 향상
한계점:
데이터셋의 언어가 체코어와 독일어에 집중되어 다른 언어의 문서 분석에는 제한적일 수 있음
19세기 후반과 20세기 초의 문서에 집중되어 시대적 범위가 제한적일 수 있음
AABB 기반의 주석만 제공되어 더욱 세분화된 주석 정보가 필요할 수 있음
제공된 기준 결과가 YOLO와 DETR에 국한되어 다른 객체 검출 모델과의 비교가 부족함
👍