본 논문은 웹에서 수집된 데이터로 훈련된 대규모 언어 모델에서 특정 데이터의 영향을 제거하기 위해 제안된 언러닝(unlearning) 방법 중, 골드 스탠다드로 여겨지는 정확한 언러닝(exact unlearning)의 취약성을 밝힙니다. 기존의 정확한 언러닝은 목표 데이터 없이 모델을 처음부터 다시 훈련시키는 방법으로 개인정보 보호 공격에 강력하다고 여겨졌지만, 본 논문에서는 언러닝 전후 모델을 활용하여 제거된 데이터 분포를 반영하는 패턴을 밝히는 새로운 데이터 추출 공격을 제시합니다. 이 공격은 모델 안내 및 토큰 필터링 전략을 결합하여 MUSE, TOFU, WMDP와 같은 일반적인 벤치마크에서 추출 성공률을 크게 향상시키며, 모의 의료 진단 데이터셋에서도 효과를 입증하여 실제 세계의 개인 정보 위험을 강조합니다. 결론적으로, 언러닝이 역설적으로 개인 정보 유출 위험을 증가시킬 수 있다는 점을 시사하며, 언러닝 방법 평가 시 사전 체크포인트에 대한 적대적 접근을 고려하는 광범위한 위협 모델을 고려해야 함을 주장합니다.