본 논문은 특정 기계 학습 언러닝 방법들이 간단한 프롬프트 공격에 취약함을 보여줍니다. 세 가지 모델 계열에 걸쳐 여덟 가지 언러닝 기법을 체계적으로 평가하여, 추정상 학습되지 않은 지식을 검색할 수 있는 정도를 출력 기반, 로짓 기반 및 프로브 분석을 통해 평가합니다. RMU 및 TAR과 같은 방법은 강력한 언러닝을 보이는 반면, ELM은 특정 프롬프트 공격에 취약하며(예: 원래 프롬프트에 힌디어 채우기 텍스트를 추가하면 57.3%의 정확도가 복구됨) 로짓 분석을 통해 언러닝된 모델이 출력과 로짓 정확도 간의 강력한 상관관계를 고려할 때, 답변 형식의 변경을 통해 지식을 숨길 가능성이 적음을 보여줍니다. 이러한 결과는 언러닝 효과에 대한 기존 가정에 이의를 제기하며, 진정한 지식 제거와 표면적인 출력 억제를 구별할 수 있는 신뢰할 수 있는 평가 프레임워크의 필요성을 강조합니다. 추가 연구를 용이하게 하기 위해, 학습되지 않은 지식을 검색하기 위한 프롬프팅 기법을 쉽게 평가할 수 있는 평가 프레임워크를 공개합니다.