본 논문은 대규모 언어 모델(LLM)의 머신 언러닝(unlearning) 과정에서 사용되는 소프트 토큰 공격(STA)의 효과성에 대한 평가를 제시합니다. 기존 연구에서 STA가 언러닝된 정보를 성공적으로 추출할 수 있다고 주장되었지만, 본 연구는 강력한 감사 환경에서 STA가 언러닝 알고리즘이나 원래 훈련 데이터에 해당 정보가 포함되었는지 여부와 무관하게 LLM에서 어떤 정보든 유출할 수 있음을 보여줍니다. Who Is Harry Potter? 와 TOFU 같은 벤치마크를 사용하여 이를 실증하고, 소수의 소프트 토큰(1-10개)만으로도 400자 이상의 임의 문자열을 유출할 수 있음을 밝힙니다. 따라서 STA를 언러닝 감사에 효과적으로 사용하기 위해서는 신중한 접근이 필요함을 강조합니다.