UniErase: Towards Balanced and Precise Unlearning in Language Models
Created by
Haebom
저자
Miao Yu, Liang Lin, Guibin Zhang, Xinfeng Li, Junfeng Fang, Xingrui Yu, Ivor Tsang, Ningyu Zhang, Kun Wang, Yang Wang
개요
대규모 언어 모델(LLM)은 정보 갱신을 위해 반복적인 업데이트가 필요하며, 이 과정에서 선택적인 제거를 위한 LLM unlearning이 중요해짐. 기존의 unlearning 방법은 미세 조정에 의존하여 정확성이 낮고, 대규모 및 순차적 환경에서 unlearning 효과와 일반적인 능력을 균형 있게 유지하는 데 어려움이 있음. 본 연구에서는 정밀성과 능력 유지를 균형 있게 달성하는 새로운 unlearning 프레임워크인 UniErase를 제안함. Unlearning Token을 도입하여 LLM을 망각 공간으로 유도하고, Unlearning Edit을 통해 unlearning 대상을 이 메타 토큰과 효율적으로 연결. UniErase는 배치, 순차적, 정밀 unlearning 작업에서 뛰어난 성능을 보이며, TOFU 벤치마크에서 기존 최고 성능의 unlearning 방법보다 모델 능력 측면에서 4.01배, unlearning 효과 측면에서 35.96% 더 우수한 결과를 보임.
시사점, 한계점
•
시사점:
◦
정밀한 unlearning을 위한 Unlearning Token 및 Unlearning Edit 제안.