[공지사항]을 빙자한 안부와 근황 
Show more

Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Bộ dữ liệu AnnoPage: Bộ dữ liệu các thành phần phi văn bản trong tài liệu với phân loại chi tiết

Created by
  • Haebom

Tác giả

Martin Ki\v{s}\v{s}, Michal Hradi\v{s}, Martina Dvo\v{r} akov a, V aclav Jirou\v{s}ek, Filip Kersch

Phác thảo

Bộ dữ liệu AnnoPage là một bộ dữ liệu mới chứa 7.550 trang tài liệu lịch sử bằng tiếng Séc và tiếng Đức từ năm 1485 đến nay. Bộ dữ liệu này tập trung chủ yếu vào các tài liệu từ cuối thế kỷ 19 và đầu thế kỷ 20, được thiết kế để hỗ trợ phân tích bố cục tài liệu và nghiên cứu phát hiện đối tượng. Mỗi trang được chú thích bằng các hộp giới hạn căn chỉnh theo trục (AABB) đại diện cho 25 danh mục thành phần phi văn bản, bao gồm hình ảnh, bản đồ, thành phần trang trí và biểu đồ, theo Phương pháp Xử lý Tài liệu Hình ảnh của Séc. Các chú thích được viết bởi một thủ thư chuyên nghiệp để đảm bảo tính chính xác và nhất quán. Các trang từ một số bộ dữ liệu tài liệu lịch sử được kết hợp để tăng tính biến thiên và duy trì tính liên tục. Bộ dữ liệu được chia thành các tập con phát triển và thử nghiệm, với tập thử nghiệm được lựa chọn cẩn thận để duy trì phân phối danh mục. Chúng tôi cung cấp kết quả cơ sở bằng cách sử dụng các bộ phát hiện đối tượng YOLO và DETR để làm chuẩn mực cho nghiên cứu trong tương lai. Bộ dữ liệu AnnoPage được cung cấp công khai trên Zenodo, với các chú thích chính xác ở định dạng YOLO.

Takeaways, Limitations

Takeaways:
Cung cấp một bộ dữ liệu mới chất lượng cao để phân tích bố cục và nghiên cứu phát hiện đối tượng của các tài liệu lịch sử
Cung cấp chú thích chính xác và nhất quán dựa trên phương pháp xử lý tài liệu hình ảnh của Séc
ĐảM bảo tính biến đổi và tính liên tục của tập dữ liệu bằng cách bao gồm nhiều tài liệu lịch sử khác nhau
Cung cấp hiệu suất cơ sở dựa trên YOLO và DETR để làm cơ sở so sánh cho nghiên cứu trong tương lai
Tăng khả năng mở rộng nghiên cứu với các tập dữ liệu có thể truy cập công khai
Limitations:
Sự thiên vị về ngôn ngữ trong tập dữ liệu (chủ yếu là tiếng Séc và tiếng Đức)
Sự thiên vị về thời gian tập trung vào cuối thế kỷ 19 và đầu thế kỷ 20
Phụ thuộc vào phương pháp xử lý tài liệu cụ thể (Phương pháp xử lý tài liệu hình ảnh của Séc)
Phạm vi chú thích giới hạn ở 25 danh mục phần tử không phải văn bản
👍