Bài báo này giới thiệu ATHAR, một bộ dữ liệu quy mô lớn, chất lượng cao dùng để dịch tiếng Anh các tác phẩm văn học Ả Rập cổ điển. Nó nhấn mạnh tầm quan trọng của văn học Ả Rập cổ điển và nhu cầu dịch thuật, đồng thời giải quyết những hạn chế của các bộ dữ liệu hiện có. Bộ dữ liệu ATHAR bao gồm 6.600 mẫu dịch thuật chất lượng cao thuộc nhiều lĩnh vực khác nhau, bao gồm khoa học, văn hóa và triết học. Nó chứng minh tính cần thiết và khả năng ứng dụng của bộ dữ liệu này thông qua việc đánh giá hiệu suất của các mô hình ngôn ngữ quy mô lớn (LLM) tiên tiến. Bộ dữ liệu này được cung cấp công khai trên HuggingFace Data Hub.