본 논문은 입력 텍스트에서 무작위로 마스킹된 단어를 예측하는 마스크 언어 모델링의 한계점을 다룹니다. 기존 마스크 언어 모델링은 마스킹된 위치에 들어갈 수 있는 다양한 단어들을 무시하고 단일 단어로 손실을 계산하는데, 특히 입력 텍스트가 짧을 경우 마스킹된 위치에 들어갈 수 있는 단어 분포의 엔트로피가 높아 모델이 단일 답변에 과신할 수 있다는 문제점을 지적합니다. 이를 해결하기 위해, 입력 텍스트 길이에 따라 정규화 강도를 동적으로 제어하는 새로운 신뢰도 정규화기를 제안합니다. GLUE와 SQuAD 데이터셋 실험 결과, 제안된 방법이 더 높은 정확도와 더 낮은 예상 보정 오차를 달성함을 보여줍니다.