[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

AnnoPage Dataset: Dataset of Non-Textual Elements in Documents with Fine-Grained Categorization

Created by
  • Haebom

作者

Martin Ki\v{s}\v{s}, Michal Hradi\v{s}, Martina Dvo\v{r} akov a, V aclav Jirou\v{s}ek, Filip Kersch

概要

AnnoPage Datasetは、1485年から現在までのチェコ語とドイツ語の7,550ページの歴史的文書ページを含む新しいデータセットです。 19世紀後半と20世紀初頭の文書に焦点を当てており、文書レイアウト分析とオブジェクト検出研究を支援するように設計されています。各ページは、画像、地図、装飾要素、チャートなど、25の非テキスト要素カテゴリを表す軸整列境界ボックス(AABB)で注釈が付けられており、チェコ画像文書の処理方法論に従います。プロの司書が正確さと一貫性を確保するためにコメントを作成しました。複数の歴史的な文書データセットのページを統合して、多様性を高め、継続性を維持します。データセットは開発とテストのサブセットに分かれており、テストセットはカテゴリ分布を維持するように慎重に選択されました。 YOLOおよびDETRオブジェクト検出器を使用した基準結果を提供し、今後の研究のための参照点を提示します。 AnnoPage Datasetは、YOLO形式の正解注釈とともにZenodo( https://doi.org/10.5281/zenodo.12788419)で公開されています。

Takeaways、Limitations

Takeaways:
歴史文書のレイアウト分析とオブジェクト検出研究のための新しい大規模データセットを提供します。
チェコの画像文書処理方法論に基づく正確で一貫した注釈の提供
様々な歴史的文書ページを含む一般化性能の向上に貢献
YOLOとDETRベースの基準性能を提供することによる今後の研究の比較基準の構築
公的にアクセス可能で、研究コミュニティに貢献。
Limitations:
主にチェコ語とドイツ語の文書に焦点を当てており、他の言語の文書には適用しにくい場合があります。
19世紀後半と20世紀初頭の文書に偏りがあり、時代的な多様性が不足する可能性があります。
25の非テキスト要素カテゴリのみが含まれているため、より細かい分類が必要になる場合があります。
データセットのサイズが他の大規模データセットと比較して比較的小さい場合があります。
👍