Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Các mô hình mở nhỏ đạt được sự tương đương gần như với các mô hình lớn trong dịch thuật văn học tài nguyên thấp với chi phí thấp hơn nhiều

Created by
  • Haebom

Tác giả

Mihai Nadas, Laura Diosan, Andreea Tomescu, Andrei Piscoran

Phác thảo

Bài báo này trình bày KHUNG DỊCH THUẬT TINYFABULIST (TF2), một khung tích hợp cho dịch thuật văn học sang tiếng Rumani, ngôn ngữ ít tài nguyên. TF2 là một khung tích hợp cho việc tạo, tinh chỉnh và đánh giá tập dữ liệu, tập trung vào việc tạo và phát hành một mô hình ngôn ngữ tinh chỉnh nén (TF2-12B) và các tập dữ liệu song song tổng hợp quy mô lớn (DS-TF2-EN-RO-3M và DS-TF2-EN-RO-15K). Dựa trên tập dữ liệu truyện ngụ ngôn tiếng Anh tổng hợp quy mô lớn hiện có (DS-TF1-EN-3M), chúng tôi tạo ra 15.000 mục dữ liệu tham chiếu tiếng Rumani chất lượng cao và tinh chỉnh mô hình bằng cách sử dụng tinh chỉnh chỉ thị và nén bộ điều hợp trên một mô hình trọng số mở 12 tỷ tham số. Đánh giá được thực hiện bằng cách kết hợp BLEU cấp ngữ liệu và một thước đo đánh giá năm chiều dựa trên LLM (độ chính xác, độ trôi chảy, độ mạch lạc, phong cách và sự thích nghi văn hóa). Kết quả thử nghiệm cho thấy mô hình được tinh chỉnh đạt được độ trôi chảy và độ liên quan tương đương với các mô hình độc quyền quy mô lớn hiệu suất cao nhất, đồng thời vẫn đảm bảo tính mã nguồn mở, dễ tiếp cận và tiết kiệm chi phí. Mô hình, tập dữ liệu, tập lệnh và lời nhắc đánh giá đều được công khai.

Takeaways, Limitations

Takeaways:
Cung cấp quy trình dịch thuật văn học hiệu quả và có thể tái tạo sang các ngôn ngữ có ít nguồn lực.
Sử dụng mô hình mở, chúng tôi trình bày tiềm năng áp dụng rộng rãi các bản dịch nội dung văn học có ý nghĩa văn hóa từ các ngôn ngữ ít nguồn lực.
Cho phép nghiên cứu bằng cách phát hành các tập dữ liệu tổng hợp chất lượng cao, quy mô lớn.
Phát triển một mô hình nhẹ có hiệu suất ngang bằng với các mô hình độc quyền quy mô lớn.
Xác thực hiệu quả của kỹ thuật tinh chỉnh chỉ thị và nén bộ điều hợp.
Limitations:
Vì dựa vào dữ liệu tổng hợp nên nó có thể không phản ánh đầy đủ sự phức tạp của bản dịch văn học trong thế giới thực.
Vì thang đánh giá dựa trên LLM nên những hạn chế của LLM có thể ảnh hưởng đến kết quả đánh giá.
Hiện tại chỉ giới hạn ở bản dịch tiếng Anh-Rumani, khả năng khái quát hóa sang các cặp ngôn ngữ khác cần được nghiên cứu thêm.
Một mô hình có 12 tỷ tham số vẫn cần rất nhiều tài nguyên, do đó việc phát triển một mô hình nhẹ hơn có thể là cần thiết.
👍