Bài báo này trình bày một phương pháp hiệu quả để thực hiện chưng cất kiến thức trên các mô hình ngôn ngữ quy mô lớn. Chưng cất kiến thức, tính toán trước và lưu trữ đệm các logit đầu ra của mô hình giáo viên, có hiệu quả về mặt chi phí, nhưng ứng dụng của nó vào quá trình tiền huấn luyện vẫn là một lĩnh vực chưa được khám phá. Chúng tôi chỉ ra rằng các phương pháp chưng cất kiến thức thưa thớt hiện có như lưu trữ đệm xác suất Top-K cung cấp các ước tính sai lệch về phân phối xác suất của giáo viên cho mô hình học sinh, dẫn đến suy giảm hiệu suất và các vấn đề hiệu chuẩn. Để ứng phó, chúng tôi đề xuất một phương pháp mới dựa trên lấy mẫu quan trọng, 'Chưng cất kiến thức lấy mẫu ngẫu nhiên'. Phương pháp này cung cấp các ước tính không thiên vị, bảo toàn các gradient trong kỳ vọng và chỉ lưu trữ nhiều logit thưa thớt. Phương pháp này tăng tốc quá trình huấn luyện mô hình học sinh với chi phí phụ trội dưới 10% so với huấn luyện dựa trên entropy chéo trên các mô hình có phạm vi từ 300 triệu đến 3 tỷ tham số, đồng thời vẫn duy trì hiệu suất cạnh tranh so với chưng cất kiến thức đầy đủ.