본 논문은 인과 관계 언어 모델링에서 토큰 수준의 불확실성을 마스크 최대 가능도 추정(masked MLE)과 자기 증류 두 가지 학습 목표와 연결합니다. 마스크 MLE이 인식론적 불확실성을 줄이고 효과적인 토큰 수준 자동 커리큘럼 학습 기법으로 작용함을 보여줍니다. 하지만 마스크 MLE은 과적합되기 쉽고, 분포 외 작업에서 성능을 개선하거나 유지하려면 자기 증류 규제가 필요합니다. 제안된 학습 목표(마스크 MLE과 자기 증류 결합)를 통해 Gemma, LLaMA, Phi 여러 아키텍처와 Alpaca, ShareGPT, GSM8K 여러 데이터셋에서 성능이 크게 향상됨을 보여주며, 과적합을 완화하는 동시에 학습 후 적응성을 유지합니다. 결론적으로 불확실성 인식 학습이 언어 모델 학습을 향상시키는 효과적인 메커니즘임을 시사합니다.