본 논문은 대규모 사전 학습 데이터셋의 노이즈가 기초 모델의 일반화 성능에 미치는 영향을 최초로 종합적으로 분석하고, 이를 완화하는 방법을 제시한 연구입니다. 합성 노이즈를 첨가한 ImageNet-1K, YFCC15M, CC12M 데이터셋을 사용한 광범위한 실험을 통해, 사전 학습 과정의 약간의 노이즈는 동일 분포(in-domain) 테스트 데이터에서는 성능 향상에 기여할 수 있지만, 상이한 분포(out-of-domain) 테스트 데이터에서는 항상 성능 저하를 야기함을 보였습니다. 이러한 현상은 사전 학습 데이터셋의 크기, 노이즈 유형, 모델 구조, 사전 학습 목표, downstream tuning 방법, downstream 애플리케이션 등에 관계없이 일관되게 나타났습니다. 본 논문에서는 노이즈가 특징 공간을 변형시키는 것이 성능 저하의 원인임을 실험적으로 밝히고, 특징 공간을 변환하여 노이즈의 악영향을 완화하고 일반화 성능을 향상시키는 새로운 tuning 방법인 NMTune을 제안합니다. NMTune은 parameter-efficient 및 black-box tuning 방식 모두에 적용 가능하며, 실제 노이즈가 포함된 데이터로 사전 학습된 다양한 비전 및 언어 모델(API 포함)에 대한 실험을 통해 효과를 검증했습니다. 본 연구는 'Noisy Model Learning'이라는 새로운 연구 방향의 중요성을 강조합니다.