Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

UniErase: Towards Balanced and Precise Unlearning in Language Models

Created by
  • Haebom

저자

Miao Yu, Liang Lin, Guibin Zhang, Xinfeng Li, Junfeng Fang, Xingrui Yu, Ivor Tsang, Ningyu Zhang, Kun Wang, Yang Wang

개요

대규모 언어 모델(LLM)은 정보 갱신을 위해 반복적인 업데이트가 필요하며, 이 과정에서 선택적인 제거를 위한 LLM unlearning이 중요해짐. 기존의 unlearning 방법은 미세 조정에 의존하여 정확성이 낮고, 대규모 및 순차적 환경에서 unlearning 효과와 일반적인 능력을 균형 있게 유지하는 데 어려움이 있음. 본 연구에서는 정밀성과 능력 유지를 균형 있게 달성하는 새로운 unlearning 프레임워크인 UniErase를 제안함. Unlearning Token을 도입하여 LLM을 망각 공간으로 유도하고, Unlearning Edit을 통해 unlearning 대상을 이 메타 토큰과 효율적으로 연결. UniErase는 배치, 순차적, 정밀 unlearning 작업에서 뛰어난 성능을 보이며, TOFU 벤치마크에서 기존 최고 성능의 unlearning 방법보다 모델 능력 측면에서 4.01배, unlearning 효과 측면에서 35.96% 더 우수한 결과를 보임.

시사점, 한계점

시사점:
정밀한 unlearning을 위한 Unlearning Token 및 Unlearning Edit 제안.
모델 능력 유지와 unlearning 효과의 균형 달성.
배치, 순차적, 정밀 unlearning 작업에서 우수한 성능 입증.
TOFU 벤치마크에서 기존 방법 대비 뛰어난 성능.
한계점:
논문에 구체적인 한계점 언급 없음. (논문 초록만 제공되어 구체적인 분석 불가)
👍