Unlearning Isn't Deletion: Investigating Reversibility of Machine Unlearning in LLMs
Created by
Haebom
저자
Xiaoyu Xu, Xiang Yue, Yang Liu, Qingqing Ye, Haibo Hu, Minxin Du
개요
본 논문은 대규모 언어 모델(LLM)에서의 언러닝(unlearning) 평가에 사용되는 토큰 수준 지표(정확도, 퍼플렉서티)의 한계를 지적하고, 이러한 지표들이 모델의 실제 정보 삭제 여부를 정확히 반영하지 못할 수 있음을 보여줍니다. 저자들은 PCA 기반 유사도 및 이동, 중심 커널 정렬, 피셔 정보를 사용하는 표상 수준 평가 프레임워크를 제안하여, 여섯 가지 언러닝 방법, 세 가지 도메인(텍스트, 코드, 수학), 두 개의 오픈소스 LLM에 적용합니다. 이를 통해 가역적(reversible) 망각과 비가역적(irreversible) 망각을 구분하고, 가역적 망각의 경우 토큰 수준 붕괴가 발생하지만 잠재적 특징은 유지되는 반면, 비가역적 망각의 경우 더 깊은 표상 수준의 손상이 발생함을 밝힙니다. 또한 출력층 근처의 얕은 가중치 변화가 오해의 소지를 일으키는 언러닝 신호와 관련이 있음을 이론적으로 설명하고, 가역성이 작업 유형과 하이퍼파라미터에 의해 조절됨을 보여줍니다. 결론적으로, 현재의 언러닝 평가 관행의 근본적인 한계를 드러내고, LLM에서 신뢰할 수 있는 언러닝을 위한 새로운 진단 기반을 마련합니다. LLM 표상 변화를 분석하기 위한 통합 툴킷을 제공합니다 (https://github.com/XiaoyuXU1/Representational_Analysis_Tools.git).