Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Lấy mẫu Logit thưa thớt: Tăng tốc quá trình chắt lọc kiến thức trong LLM

Created by
  • Haebom

Tác giả

Anshumann, Mohd Abbas Zaidi, Akhil Kedia, Jinwoo Ahn, Taehwak Kwon, Kangwook Lee, Haejun Lee, Joohyung Lee

Phác thảo

Bài báo này trình bày một phương pháp hiệu quả để thực hiện chưng cất kiến thức trên các mô hình ngôn ngữ quy mô lớn. Chưng cất kiến thức, tính toán trước và lưu trữ đệm các logit đầu ra của mô hình giáo viên, có hiệu quả về mặt chi phí, nhưng ứng dụng của nó vào quá trình tiền huấn luyện vẫn là một lĩnh vực chưa được khám phá. Chúng tôi chỉ ra rằng các phương pháp chưng cất kiến thức thưa thớt hiện có như lưu trữ đệm xác suất Top-K cung cấp các ước tính sai lệch về phân phối xác suất của giáo viên cho mô hình học sinh, dẫn đến suy giảm hiệu suất và các vấn đề hiệu chuẩn. Để ứng phó, chúng tôi đề xuất một phương pháp mới dựa trên lấy mẫu quan trọng, 'Chưng cất kiến thức lấy mẫu ngẫu nhiên'. Phương pháp này cung cấp các ước tính không thiên vị, bảo toàn các gradient trong kỳ vọng và chỉ lưu trữ nhiều logit thưa thớt. Phương pháp này tăng tốc quá trình huấn luyện mô hình học sinh với chi phí phụ trội dưới 10% so với huấn luyện dựa trên entropy chéo trên các mô hình có phạm vi từ 300 triệu đến 3 tỷ tham số, đồng thời vẫn duy trì hiệu suất cạnh tranh so với chưng cất kiến thức đầy đủ.

Takeaways, Limitations

Takeaways:
Chúng tôi đề xuất 'Chưng cất kiến thức lấy mẫu ngẫu nhiên', một phương pháp chưng cất kiến thức thưa thớt dựa trên lấy mẫu quan trọng, để cải thiện tốc độ đào tạo trước của các mô hình ngôn ngữ quy mô lớn.
Chúng tôi tiết lộ __T6570_____ của phương pháp Top-K hiện có và đề xuất một phương pháp cung cấp ước tính khách quan.
Chúng tôi đã kiểm chứng hiệu quả và hiệu suất của nó trên nhiều mô hình khác nhau, từ 300 triệu đến 3 tỷ thông số.
Chúng tôi cải thiện tốc độ đào tạo trong khi vẫn duy trì hiệu suất cạnh tranh so với phương pháp chắt lọc kiến thức đầy đủ.
Limitations:
Hiệu quả của phương pháp đề xuất đã được xác minh trên một phạm vi kích thước mô hình cụ thể (300 triệu đến 3 tỷ tham số) và hiệu suất có thể khác nhau đối với các mô hình có kích thước khác nhau.
Các thí nghiệm bị giới hạn trong một tập dữ liệu cụ thể và hiệu suất tổng quát trên các tập dữ liệu khác cần được nghiên cứu thêm.
Có thể cần nghiên cứu thêm để xác định cài đặt siêu tham số tối ưu cho phương pháp 'Chưng cất kiến thức lấy mẫu ngẫu nhiên'.
👍