Transformer 기반 모델의 텍스트 분류 성능 향상을 위해 입력 토큰 마스킹 기법을 제안합니다. 제안하는 토큰 마스킹 정규화는 입력 토큰을 확률 p로 특수 토큰 [MASK]로 임의로 대체하는 간단하지만 이론적으로도 타당한 방법입니다. 이는 훈련 중 확률적 섭동을 도입하여 암묵적인 그래디언트 평균화를 유도하고, 모델이 더 깊은 토큰 간 의존성을 포착하도록 장려합니다. 다양한 모델(mBERT, Qwen2.5-0.5B, TinyLlama-1.1B)을 사용한 언어 식별 및 감정 분석 실험에서 표준 정규화 기법보다 일관된 성능 향상을 보였으며, p = 0.1이 일반적인 기본값으로 적합함을 확인했습니다. 성능 향상은 (1) 입력 섭동에 의한 과적합 감소 및 (2) 그래디언트 수준의 평활화에 의한 암묵적 앙상블 효과 두 가지로 설명합니다.