Este artículo presenta un método eficiente para la destilación de conocimiento en modelos lingüísticos a gran escala. La destilación de conocimiento, que precalcula y almacena en caché los logits de salida del modelo del profesor, es rentable, pero su aplicación al preentrenamiento aún es un área inexplorada. Demostramos que los métodos existentes de destilación de conocimiento disperso, como el almacenamiento en caché de probabilidad Top-K, proporcionan estimaciones sesgadas de la distribución de probabilidad del profesor al modelo del estudiante, lo que conlleva una degradación del rendimiento y problemas de calibración. En respuesta, proponemos un nuevo método basado en el muestreo por importancia: la «Destilación de Conocimiento por Muestreo Aleatorio». Este método proporciona estimaciones insesgadas, conserva los gradientes en la expectativa y almacena solo una gran cantidad de logits dispersos. Acelera el entrenamiento del modelo del estudiante con menos del 10 % de sobrecarga en comparación con el entrenamiento basado en entropía cruzada en modelos que abarcan desde 300 millones hasta 3 mil millones de parámetros, a la vez que mantiene un rendimiento competitivo en comparación con la destilación de conocimiento completa.