본 논문은 사전 훈련된 대규모 트랜스포머 모델(특히 wav2vec 2.0)의 파인튜닝 과정에서 음성 인식 및 분석에 필수적인 음성 정규화 과정이 어떻게 암묵적으로 수행되는지 조사합니다. 다양한 작업에 대해 파인튜닝된 모델의 임베딩을 분석하여, 파인튜닝된 wav2vec 2.0이 작업과 관련 없는 정보를 선택적으로 억제함으로써 효과적으로 음성 정규화를 달성한다는 것을 보여줍니다. 또한, 여러 작업에 대해 파인튜닝된 모델은 성능 저하 없이 두 작업 모두에 대한 정보를 유지하며, 작업과 관련 없는 정보의 억제가 효과적인 분류에 필수적이지 않다는 것을 발견했습니다. 이러한 결과는 음성 모델에서 음성 정규화를 유연하게 수행하는 방법과 인간의 음성 지각에서 이것이 어떻게 구현되는지에 대한 새로운 통찰력을 제공합니다.