Bộ dữ liệu AnnoPage là một bộ dữ liệu mới chứa 7.550 trang tài liệu lịch sử bằng tiếng Séc và tiếng Đức từ năm 1485 đến nay. Bộ dữ liệu này tập trung chủ yếu vào các tài liệu từ cuối thế kỷ 19 và đầu thế kỷ 20, được thiết kế để hỗ trợ phân tích bố cục tài liệu và nghiên cứu phát hiện đối tượng. Mỗi trang được chú thích bằng các hộp giới hạn căn chỉnh theo trục (AABB) đại diện cho 25 danh mục thành phần phi văn bản, bao gồm hình ảnh, bản đồ, thành phần trang trí và biểu đồ, theo Phương pháp Xử lý Tài liệu Hình ảnh của Séc. Các chú thích được viết bởi một thủ thư chuyên nghiệp để đảm bảo tính chính xác và nhất quán. Các trang từ một số bộ dữ liệu tài liệu lịch sử được kết hợp để tăng tính biến thiên và duy trì tính liên tục. Bộ dữ liệu được chia thành các tập con phát triển và thử nghiệm, với tập thử nghiệm được lựa chọn cẩn thận để duy trì phân phối danh mục. Chúng tôi cung cấp kết quả cơ sở bằng cách sử dụng các bộ phát hiện đối tượng YOLO và DETR để làm chuẩn mực cho nghiên cứu trong tương lai. Bộ dữ liệu AnnoPage được cung cấp công khai trên Zenodo, với các chú thích chính xác ở định dạng YOLO.