본 논문은 대규모 언어 모델(LLM)의 학습 데이터에서 민감한 정보가 유출될 수 있는 문제를 해결하기 위한 언러닝(unlearning) 기법의 한계를 지적한다. 특히, 사전/사후 언러닝 로짓 API가 모두 노출되는 실제 배포 환경에서, 사전 언러닝 모델의 신호를 활용하여 사후 언러닝 모델로부터 삭제된 데이터의 패턴을 추출하는 새로운 데이터 추출 공격을 제안한다. 이 공격은 모델 가이드와 토큰 필터링 전략을 결합하여 데이터 추출 성공률을 크게 향상시키며, 의료 진단 데이터셋을 통해 실제 위험성을 강조한다. 본 연구는 언러닝이 오히려 개인 정보 유출 위험을 증가시킬 수 있음을 시사하며, 사전 모델에 대한 적대적 접근을 포함하는 광범위한 위협 모델을 고려하여 언러닝 기법을 평가할 것을 제안한다.