Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Unlearning Isn't Deletion: Investigating Reversibility of Machine Unlearning in LLMs

Created by
  • Haebom

저자

Xiaoyu Xu, Xiang Yue, Yang Liu, Qingqing Ye, Huadi Zheng, Peizhao Hu, Minxin Du, Haibo Hu

개요

대규모 언어 모델(LLM)에서 특정 데이터를 제거하는 언러닝(Unlearning)의 효과는 일반적으로 정확도나 혼란도와 같은 작업 수준 지표로 평가되지만, 이러한 지표는 오해의 소지가 있을 수 있음을 보입니다. 모델이 잊은 것처럼 보일 수 있지만, 최소한의 미세 조정으로 원래의 동작이 쉽게 복원될 수 있습니다. 이러한 "가역성" 현상은 정보가 실제로 삭제된 것이 아니라 억제되었음을 시사합니다. 이 문제를 해결하기 위해 PCA 기반 유사성 및 이동, 중심 커널 정렬(CKA) 및 피셔 정보를 포함하는 "표현 수준 분석 프레임워크"를 도입합니다. 이를 통해, 가역성과 대참사성의 관점에서 네 가지 뚜렷한 망각 체제를 식별합니다. 분석 결과, 이상적인 상태(비가역적, 비대참사적 망각)를 달성하는 것은 매우 어렵다는 것을 발견했습니다. 언러닝의 한계를 탐구하여, 겉보기에 비가역적이고 표적화된 망각의 사례를 확인하고, 보다 강력한 삭제 알고리즘 설계를 위한 새로운 통찰력을 제공합니다.

시사점, 한계점

현재 평가 방식의 근본적인 격차를 드러냄.
신뢰할 수 있는 언러닝을 위한 표현 수준의 기반을 구축.
가역성과 대참사성에 기반한 네 가지 망각 체제 식별.
이상적인 언러닝 상태(비가역적, 비대참사적 망각) 달성이 어려움.
겉보기에 비가역적인 표적화된 망각 사례 발견.
👍