[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

AnnoPage Dataset: Dataset of Non-Textual Elements in Documents with Fine-Grained Categorization

Created by
  • Haebom

저자

Martin Ki\v{s}\v{s}, Michal Hradi\v{s}, Martina Dvo\v{r}akova, Vaclav Jirou\v{s}ek, Filip Kersch

개요

AnnoPage Dataset은 1485년부터 현재까지의 체코어와 독일어로 된 7,550페이지의 역사적 문서 페이지를 포함하는 새로운 데이터셋입니다. 19세기 후반과 20세기 초의 문서에 중점을 두고 있으며, 문서 레이아웃 분석과 객체 탐지 연구를 지원하도록 설계되었습니다. 각 페이지는 이미지, 지도, 장식 요소, 차트 등 25가지 비텍스트 요소 범주를 나타내는 축 정렬 경계 상자(AABB)로 주석이 달려 있으며, 체코 이미지 문서 처리 방법론을 따릅니다. 전문 사서가 정확성과 일관성을 보장하기 위해 주석을 작성했습니다. 여러 역사적 문서 데이터셋의 페이지를 통합하여 다양성을 높이고 연속성을 유지합니다. 데이터셋은 개발 및 테스트 하위 집합으로 나뉘며, 테스트 집합은 범주 분포를 유지하도록 신중하게 선택되었습니다. YOLO 및 DETR 객체 검출기를 사용한 기준 결과를 제공하여 향후 연구를 위한 참조 지점을 제시합니다. AnnoPage Dataset은 YOLO 형식의 정답 주석과 함께 Zenodo(https://doi.org/10.5281/zenodo.12788419)에서 공개적으로 사용할 수 있습니다.

시사점, 한계점

시사점:
역사적 문서의 레이아웃 분석 및 객체 탐지 연구를 위한 새로운 대규모 데이터셋 제공.
체코 이미지 문서 처리 방법론 기반의 정확하고 일관된 주석 제공.
다양한 역사적 문서 페이지를 포함하여 일반화 성능 향상에 기여.
YOLO 및 DETR 기반의 기준 성능 제공으로 향후 연구의 비교 기준 마련.
공개적으로 접근 가능하여 연구 공동체에 기여.
한계점:
주로 체코어와 독일어 문서에 집중되어 다른 언어의 문서에는 적용하기 어려울 수 있음.
19세기 후반과 20세기 초의 문서에 편중되어 시대적 다양성이 부족할 수 있음.
25가지 비텍스트 요소 범주만 포함되어 더욱 세분화된 분류가 필요할 수 있음.
데이터셋의 크기가 다른 대규모 데이터셋에 비해 상대적으로 작을 수 있음.
👍