Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Các công cụ tối ưu hóa tiền huấn luyện tuyệt vời và nơi tìm thấy chúng

Created by
  • Haebom

Tác giả

Kaiyue Wen, David Hall, Tengyu Ma, Percy Liang

Phác thảo

Bài báo này trình bày kết quả của một nghiên cứu có hệ thống về các tuyên bố tăng tốc của các thuật toán tối ưu hóa có thể thay thế AdamW cho việc tiền huấn luyện mô hình ngôn ngữ quy mô lớn. Chúng tôi nêu bật các vấn đề mà các nghiên cứu trước đây đã làm sai lệch kết quả so sánh do điều chỉnh siêu tham số không công bằng và các thiết lập đánh giá hạn chế, đồng thời so sánh mười thuật toán tối ưu hóa trên bốn kích thước mô hình và tỷ lệ dữ liệu trên mô hình khác nhau. Kết quả của chúng tôi chứng minh rằng việc điều chỉnh siêu tham số nghiêm ngặt và đánh giá cuối quá trình huấn luyện cho các kích thước mô hình và tỷ lệ dữ liệu trên mô hình khác nhau là rất cần thiết để so sánh công bằng. Hơn nữa, chúng tôi nhận thấy rằng tốc độ tăng tốc được tuyên bố trong các nghiên cứu trước đây thực sự thấp hơn và có xu hướng giảm khi kích thước mô hình tăng. Cụ thể, chúng tôi nhận thấy rằng các thuật toán tối ưu hóa nhanh nhất, chẳng hạn như Muon và Soap, sử dụng bộ tiền xử lý ma trận, nhưng tốc độ của chúng giảm tỷ lệ nghịch với kích thước mô hình.

Takeaways, Limitations

Takeaways:
Người ta đặt ra câu hỏi về độ tin cậy của các kết quả nghiên cứu hiện có về việc tăng tốc các thuật toán tối ưu hóa trong quá trình đào tạo trước mô hình ngôn ngữ quy mô lớn.
Chúng tôi trình bày phương pháp điều chỉnh siêu tham số nghiêm ngặt và phương pháp đánh giá toàn diện để so sánh công bằng các thuật toán tối ưu hóa.
Chúng tôi thấy rằng tốc độ của các thuật toán tối ưu hóa sử dụng bộ xử lý trước dựa trên ma trận giảm theo kích thước mô hình.
Chúng tôi chứng minh bằng thực nghiệm rằng tốc độ tăng lên so với AdamW trở nên tối thiểu khi kích thước mô hình tăng lên.
Limitations:
Các thuật toán tối ưu hóa, quy mô mô hình và tỷ lệ dữ liệu trên mô hình được xem xét trong nghiên cứu này có thể bị hạn chế.
Cần có thêm nghiên cứu về khả năng khái quát hóa cho các loại mô hình ngôn ngữ hoặc nhiệm vụ khác.
Có thể cần phải thực hiện những so sánh phức tạp hơn bằng cách khám phá không gian siêu tham số rộng hơn.
👍