본 논문은 대규모 언어 모델(LLM)의 최근 언러닝 방법들이 재학습 공격에 취약하다는 문제를 다룹니다. 기존의 언러닝으로 제거되었다고 여겨지는 지식이 소량의 (심지어 무관해 보이는) 예시들로 미세 조정하는 것만으로도 다시 나타나는 현상을 연구합니다. 특히 이미지 분류기에서 예시 단위 언러닝을 제어된 환경에서 연구하여, 놀랍게도 언러닝 후 약 50%였던 잊혀진 데이터셋(forget-set)의 정확도가 잊혀진 데이터셋의 예시를 전혀 사용하지 않고 남겨진 데이터셋(retain-set)으로만 미세 조정했을 때 거의 100%까지 회복되는 현상을 발견했습니다. 이러한 효과는 다양한 언러닝 방법에서 관찰되었으며, 잊혀진 데이터셋을 제외하고 처음부터 다시 훈련된 모델(골드 스탠다드)의 경우 정확도는 50%에 머물렀습니다. 또한, 재학습 공격에 대한 저항성은 가중치 공간의 특성, 특히 원래 모델과 언러닝된 모델 사이의 $L_2$-거리와 선형 모드 연결성으로 예측 가능함을 확인했습니다. 이러한 통찰력을 활용하여 재학습 공격에 대한 최첨단 저항성을 달성하는 새로운 방법들을 제안합니다.