Bài báo này trình bày kết quả của một nghiên cứu có hệ thống về các tuyên bố tăng tốc của các thuật toán tối ưu hóa có thể thay thế AdamW cho việc tiền huấn luyện mô hình ngôn ngữ quy mô lớn. Chúng tôi nêu bật các vấn đề mà các nghiên cứu trước đây đã làm sai lệch kết quả so sánh do điều chỉnh siêu tham số không công bằng và các thiết lập đánh giá hạn chế, đồng thời so sánh mười thuật toán tối ưu hóa trên bốn kích thước mô hình và tỷ lệ dữ liệu trên mô hình khác nhau. Kết quả của chúng tôi chứng minh rằng việc điều chỉnh siêu tham số nghiêm ngặt và đánh giá cuối quá trình huấn luyện cho các kích thước mô hình và tỷ lệ dữ liệu trên mô hình khác nhau là rất cần thiết để so sánh công bằng. Hơn nữa, chúng tôi nhận thấy rằng tốc độ tăng tốc được tuyên bố trong các nghiên cứu trước đây thực sự thấp hơn và có xu hướng giảm khi kích thước mô hình tăng. Cụ thể, chúng tôi nhận thấy rằng các thuật toán tối ưu hóa nhanh nhất, chẳng hạn như Muon và Soap, sử dụng bộ tiền xử lý ma trận, nhưng tốc độ của chúng giảm tỷ lệ nghịch với kích thước mô hình.