William F. Shen, Xinchi Qiu, Meghdad Kurmanji, Alex Iacob, Lorenzo Sani, Yihong Chen, Nicola Cancedda, Nicholas D. Lane
LUNAR: Linear Unlearning with Activation Redirection
개요
LUNAR는 대규모 언어 모델(LLM)에서 특정 지식을 선택적으로 제거하는 새로운 방법론입니다. 선형 표현 가설에 기반하여, 학습 제거된 데이터의 표현을 모델이 응답할 수 없음을 나타내는 활성화 영역으로 리디렉션합니다. LUNAR는 효율성, 강건성 및 제어성을 향상시켰으며, 특히 단일 다운 프로젝션 행렬만 업데이트하여 파라미터 업데이트를 줄여 효율성을 20배 향상시켰습니다.
시사점, 한계점
•
시사점:
◦
최대 11.7배 향상된 unlearning 효과와 모델 유틸리티 결합 점수(Deviation Score) 달성.