AnnoPage Dataset: Dataset of Non-Textual Elements in Documents with Fine-Grained Categorization
Created by
Haebom
저자
Martin Ki\v{s}\v{s}, Michal Hradi\v{s}, Martina Dvo\v{r}akova, Vaclav Jirou\v{s}ek, Filip Kersch
개요
AnnoPage Dataset은 1485년부터 현재까지의 체코어와 독일어로 된 7,550페이지의 역사적 문서 페이지를 포함하는 새로운 데이터셋입니다. 19세기 후반과 20세기 초의 문서에 중점을 두고 있으며, 문서 레이아웃 분석과 객체 탐지 연구를 지원하도록 설계되었습니다. 각 페이지는 이미지, 지도, 장식 요소, 차트 등 25가지 비텍스트 요소 범주를 나타내는 축 정렬 경계 상자(AABB)로 주석이 달려 있으며, 체코 이미지 문서 처리 방법론을 따릅니다. 전문 사서가 정확성과 일관성을 보장하기 위해 주석을 작성했습니다. 여러 역사적 문서 데이터셋의 페이지를 통합하여 다양성을 높이고 연속성을 유지합니다. 데이터셋은 개발 및 테스트 하위 집합으로 나뉘며, 테스트 집합은 범주 분포를 유지하도록 신중하게 선택되었습니다. YOLO 및 DETR 객체 검출기를 사용한 기준 결과를 제공하여 향후 연구를 위한 참조 지점을 제시합니다. AnnoPage Dataset은 YOLO 형식의 정답 주석과 함께 Zenodo(https://doi.org/10.5281/zenodo.12788419)에서 공개적으로 사용할 수 있습니다.