Sign In

The Limits of Obliviate: Evaluating Unlearning in LLMs via Stimulus-Knowledge Entanglement-Behavior Framework

Created by
  • Haebom
Category
Empty

저자

Aakriti Shah, Thai Le

개요

대규모 언어 모델(LLM)에서 민감한 데이터 관리 및 허위 정보 수정을 위한 학습 해제가 중요하지만, 그 효과를 평가하는 것은 어려운 문제이다. 본 연구는 2.7B에서 13B 매개변수 범위의 다양한 모델(OPT-2.7B, LLaMA-2-7B, LLaMA-3.1-8B, LLaMA-2-13B)에서 설득력 있는 프롬프팅이 의도적으로 학습 해제된 LLM으로부터 사실적 지식을 재현할 수 있는지 조사한다. ACT-R 및 Hebbian 이론(확산 활성화 이론)과 통신 원리를 바탕으로, 도메인 그래프를 통해 정보 얽힘을 모델링하고 학습 해제된 모델에서 사실적 재현이 설득력 있는 프레이밍과 상관관계가 있는지 테스트하는 SKeB(Stimulus-Knowledge Entanglement-Behavior) 프레임워크를 제시한다. 지식 활성화 패턴을 정량화하고 출력의 사실성, 비사실성, 환각을 평가하기 위한 얽힘 지표를 개발했다. 연구 결과, 설득력 있는 프롬프트가 사실적 지식 재현을 실질적으로 향상시키며(기본 14.8% vs. 권위 프레이밍 24.5%), 그 효과는 모델 크기에 반비례한다(2.7B에서 128% 복구 vs. 13B에서 15%). SKeB는 LLM의 학습 해제 완전성, 견고성 및 전반적인 행동을 평가하는 기반을 제공한다.

시사점, 한계점

설득력 있는 프롬프팅이 학습 해제된 LLM에서 사실적 지식 재현을 유의미하게 향상시킴
효과는 모델 크기에 반비례하여, 작은 모델에서 더 두드러짐
SKeB 프레임워크는 학습 해제된 LLM의 행동 평가를 위한 새로운 방법론 제시
연구는 특정 LLM 모델과 프롬프트 유형에 국한될 수 있음
개선된 지식 재현이 모델의 일반화 능력에 미치는 영향에 대한 추가 연구 필요
실제 시나리오에서의 설득력 있는 프롬프트의 효과를 평가하는 것이 중요
👍