Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

DaMoC: Lựa chọn hiệu quả mô hình ngôn ngữ lớn tối ưu để tinh chỉnh các tác vụ miền dựa trên nén dữ liệu và mô hình

Created by
  • Haebom

Tác giả

Ngụy Hoàng, Hoàng Vĩ, Yinggui Wang

Phác thảo

Bài báo này đề xuất một khuôn khổ nén dữ liệu và mô hình (DaMoC) giải quyết vấn đề lựa chọn nhanh chóng mô hình tối ưu trong số nhiều mô hình ngôn ngữ quy mô lớn (LLM) nguồn mở để tinh chỉnh cho các tác vụ miền cụ thể. DaMoC bao gồm hai khía cạnh: cấp độ dữ liệu và mô hình. Ở cấp độ dữ liệu, chúng tôi phân loại các phương pháp lọc dữ liệu thành ba mô hình: nhận thức phân phối, nhận thức chất lượng và phương pháp kết hợp. Chúng tôi đạt được nén mã thông báo bằng cách tăng mật độ mã thông báo chính và chúng tôi tối ưu hóa biểu diễn bằng cách viết lại văn bản theo từng bước lặp lại bằng LLM. Ở cấp độ mô hình, chúng tôi sử dụng điểm tương đồng phân cấp để đánh giá tầm quan trọng của từng lớp, cắt tỉa các lớp có tầm quan trọng thấp và giới thiệu mô hình hợp nhất thưa thớt để tối đa hóa việc bảo tồn các tính năng của mô hình gốc. Thông qua các thử nghiệm mở rộng trên bốn tập dữ liệu—Hỏi & Đáp về y tế, Hỏi & Đáp về tài chính, Hỏi & Đáp chung và hiểu đọc—chúng tôi chứng minh rằng việc lựa chọn LLM tối ưu giúp giảm thời gian đào tạo khoảng 20 lần.

Takeaways, Limitations

Takeaways:
Chúng tôi cung cấp một khuôn khổ để lựa chọn hiệu quả mô hình tối ưu cho một nhiệm vụ cụ thể từ nhiều LLM nguồn mở khác nhau.
Giảm đáng kể thời gian đào tạo để tinh chỉnh LLM (khoảng 20 lần) thông qua nén dữ liệu và mô hình.
Chúng tôi phân loại một cách có hệ thống các phương pháp lọc dữ liệu và trình bày các chiến lược hiệu quả để tinh chỉnh LLM.
Limitations:
Hiệu suất của khung đề xuất có thể phụ thuộc vào tập dữ liệu và tác vụ được sử dụng. Cần có thêm các thử nghiệm trên nhiều tập dữ liệu và tác vụ khác nhau.
Việc thiếu mô tả chi tiết về phương pháp luận cụ thể của "mô hình hợp nhất thưa thớt" đòi hỏi phải xem xét lại khả năng tái tạo.
Cần nghiên cứu thêm để xác minh xem hiệu quả giảm thời gian luyện tập 20 lần có nhất quán trong mọi trường hợp hay không.
👍