Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

ATHAR: Bộ dữ liệu đa dạng và chất lượng cao dành cho bản dịch tiếng Ả Rập cổ điển sang tiếng Anh

Created by
  • Haebom

Tác giả

Mohammed Khalil, Mohammed Sabry

Phác thảo

Bài báo này giới thiệu ATHAR, một bộ dữ liệu quy mô lớn, chất lượng cao dùng để dịch tiếng Anh các tác phẩm văn học Ả Rập cổ điển. Nó nhấn mạnh tầm quan trọng của văn học Ả Rập cổ điển và nhu cầu dịch thuật, đồng thời giải quyết những hạn chế của các bộ dữ liệu hiện có. Bộ dữ liệu ATHAR bao gồm 6.600 mẫu dịch thuật chất lượng cao thuộc nhiều lĩnh vực khác nhau, bao gồm khoa học, văn hóa và triết học. Nó chứng minh tính cần thiết và khả năng ứng dụng của bộ dữ liệu này thông qua việc đánh giá hiệu suất của các mô hình ngôn ngữ quy mô lớn (LLM) tiên tiến. Bộ dữ liệu này được cung cấp công khai trên HuggingFace Data Hub.

Takeaways, Limitations

Takeaways: Điều này cung cấp một bộ dữ liệu lớn, chất lượng cao, thiết yếu cho nghiên cứu dịch thuật tiếng Ả Rập cổ điển, góp phần cải thiện hiệu suất của các hệ thống dịch thuật dựa trên LLM. Phạm vi bao phủ toàn diện của bộ dữ liệu này trên nhiều lĩnh vực khác nhau, giúp tăng khả năng tiếp cận tài liệu tiếng Ả Rập cổ điển và góp phần phổ biến kiến ​​thức. Nó cũng gợi ý các ứng dụng tiềm năng cho việc tinh chỉnh và tiền đào tạo các LLM.
_____T36947____-: Bộ dữ liệu có thể chưa đủ lớn, và cần phân tích thêm về sai lệch định tính hoặc mất cân bằng trong bộ dữ liệu. Cần cân nhắc việc mở rộng bản dịch sang các ngôn ngữ khác.
👍