대규모 언어 모델(LLM)에서 특정 데이터를 제거하는 언러닝(Unlearning)의 효과는 일반적으로 정확도나 혼란도와 같은 작업 수준 지표로 평가되지만, 이러한 지표는 오해의 소지가 있을 수 있음을 보입니다. 모델이 잊은 것처럼 보일 수 있지만, 최소한의 미세 조정으로 원래의 동작이 쉽게 복원될 수 있습니다. 이러한 "가역성" 현상은 정보가 실제로 삭제된 것이 아니라 억제되었음을 시사합니다. 이 문제를 해결하기 위해 PCA 기반 유사성 및 이동, 중심 커널 정렬(CKA) 및 피셔 정보를 포함하는 "표현 수준 분석 프레임워크"를 도입합니다. 이를 통해, 가역성과 대참사성의 관점에서 네 가지 뚜렷한 망각 체제를 식별합니다. 분석 결과, 이상적인 상태(비가역적, 비대참사적 망각)를 달성하는 것은 매우 어렵다는 것을 발견했습니다. 언러닝의 한계를 탐구하여, 겉보기에 비가역적이고 표적화된 망각의 사례를 확인하고, 보다 강력한 삭제 알고리즘 설계를 위한 새로운 통찰력을 제공합니다.