Ditch the Denoiser: Emergence of Noise Robustness in Self-Supervised Learning from Data Curriculum
Created by
Haebom
저자
Wenquan Lu, Jiaqi Zhang, Hugues Van Assel, Randall Balestriero
개요
본 논문은 자가 지도 학습(SSL)을 활용하여 노이즈가 많은 데이터에서 강건한 표현 학습을 수행하는 새로운 프레임워크를 제시합니다. 기존 SSL 연구는 주로 깨끗하고 정제된 고품질 데이터셋에 집중되어 노이즈 데이터에 대한 적용이 어려웠던 반면, 본 연구는 추론 단계나 downstream fine-tuning 없이 노이즈에 강건한 표현 학습을 가능하게 합니다. 먼저 노이즈 데이터에서 SSL 기반 denoiser를 학습하고, 이를 이용하여 denoised 데이터와 noisy 데이터로 구성된 curriculum을 만들어 SSL 백본(예: DINOv2)을 사전 학습합니다. 여기에 teacher-guided regularization을 추가하여 노이즈가 포함된 임베딩을 denoised 임베딩에 고정시킴으로써 모델이 노이즈에 대한 강건성을 내재화하도록 유도합니다. 사전 학습 후에는 denoiser를 제거할 수 있어 배포가 간편해집니다. ImageNet-1k 데이터셋과 ViT-B 모델, 그리고 극심한 Gaussian 노이즈 ($\sigma=255$, SNR = 0.72 dB) 환경에서 DINOv2 대비 linear probing 정확도를 4.8% 향상시켰으며, 이는 노이즈 인식 사전 학습을 통해 denoiser가 없는 강건성을 얻을 수 있음을 보여줍니다. 코드는 https://github.com/wenquanlu/noisy_dinov2 에서 확인 가능합니다.