본 논문은 기존의 대규모 언어 모델(LLM)의 언러닝(unlearning) 방법이 취약하며, 소량의 파인튜닝으로 쉽게 원래 상태로 되돌릴 수 있다는 문제점을 지적합니다. 이는 원치 않는 정보에 노출되지 않은 오라클 모델을 모방하도록 학습하는 이상적인 언러닝 방법에도 해당되는 사실이며, 출력 기반 파인튜닝만으로는 강력한 언러닝을 달성하기에 불충분함을 시사합니다. 본 논문에서는 무작위로 초기화된 학생 모델이 언러닝된 모델을 모방하도록 학습하는 과정에서 원하는 행동은 유지하면서 원치 않는 능력은 제거되는 현상을 발견하고, 이를 통해 언러닝의 강건성을 높이는 증류(distillation) 기법의 효과를 확인합니다. 이러한 통찰력을 바탕으로, 언러닝된 모델을 부분적으로 노이즈가 추가된 자신의 복사본으로 증류하는 확장 가능한 방법인 Unlearn-Noise-Distill-on-Outputs (UNDO)를 제안합니다. UNDO는 연산 비용과 강건성 사이의 조절 가능한 절충안을 제공하며, 합성 언어 및 산술 작업에서 새로운 파레토 프런티어를 설정합니다. 최적 설정에서 UNDO는 완벽한 데이터 필터링을 통해 처음부터 다시 학습한 모델의 강건성과 동등한 수준을 달성하면서, 연산량의 60-80%만 사용하고 사전 학습 데이터의 0.01%만 라벨링하면 됩니다. 또한, 더 현실적인 Weapons of Mass Destruction Proxy (WMDP) 벤치마크에서도 UNDO가 언러닝의 강건성을 높인다는 것을 보여줍니다. 증류는 실제로 널리 사용되므로, 사전에 언러닝 단계를 통합하면 강력한 능력 제거를 위한 편리한 방법을 제공합니다.