ZeroUnlearn: Few-Shot Knowledge Unlearning in Large Language Models

작성자

Haebom

카테고리

Empty

저자

Yujie Lin, Chengyi Yang, Zhishang Xiang, Yiping Song, Jinsong Su

💡 개요

대규모 언어 모델은 웹 데이터 학습 과정에서 민감한 정보를 내재하게 되어 프라이버시 및 안전 문제를 야기합니다. 본 논문은 기존의 비효율적이거나 관련 지식을 손상시키는 재학습/파인튜닝 방식의 기계적 학습 제거(unlearning) 문제를 해결하기 위해, 모델 편집을 통한 지식 재매핑 문제로 재정의합니다. 이를 위해 소량의 데이터만으로 민감한 입력 정보를 중립적인 목표 상태로 매핑하고 원본 표현을 제거하는 ZeroUnlearn 프레임워크를 제안합니다.

🔑 시사점 및 한계

•

효율적인 소량 데이터 학습 제거: ZeroUnlearn은 소량의 데이터만으로도 민감한 지식을 효과적으로 제거하며, 모델의 전반적인 유용성을 보존합니다.

•

정밀한 지식 재매핑: 표현 직교성을 강제하는 곱셈적 파라미터 업데이트 방식은 효율적이고 목표 지향적인 학습 제거를 가능하게 합니다.

•

모델 편집 기반 접근 방식: 기계적 학습 제거를 모델 편집 문제로 재정의함으로써 기존 방법론의 한계를 극복하는 새로운 패러다임을 제시합니다.

•

다중 샘플 학습 제거 확장: 그래디언트 기반 변형을 통해 여러 샘플에 대한 학습 제거까지 확장 가능성을 보여줍니다.

PDF 보기

Made with Slashpage