본 논문은 제한된 양의 정상 데이터만으로도 백도어 공격에 대한 방어가 가능한 새로운 방법인 ULRL(UnLearn and ReLearn)을 제안합니다. ULRL은 백도어 트리거에 과민하게 반응하는 뉴런을 식별하고 재교정하는 두 단계 접근 방식을 사용합니다. 첫 번째 단계인 Unlearning에서는 작은 정상 데이터셋에 대해 네트워크의 손실을 의도적으로 최대화하여 백도어 트리거에 민감한 뉴런을 찾아냅니다. 두 번째 단계인 Relearning에서는 목표 재초기화와 코사인 유사도 규제를 사용하여 이러한 의심스러운 뉴런을 재교정하여 백도어 영향을 중화하고 정상 데이터에 대한 모델 성능을 유지합니다. CIFAR-10, CIFAR-100, GTSRB, Tiny-ImageNet 등 다양한 데이터셋과 PreAct-ResNet18, VGG19-BN, ViT-B-16 등 다양한 아키텍처에서 12가지 유형의 백도어 공격에 대한 광범위한 실험을 통해, ULRL이 정상 정확도를 저하시키지 않으면서 공격 성공률을 크게 줄일 수 있음을 보여줍니다. 특히, 방어에 1%의 정상 데이터만 사용하더라도 효과적임을 확인했습니다.