On Effects of Steering Latent Representation for Large Language Model Unlearning

Created by

Haebom

저자

Dang Huu-Tien, Trung-Tin Pham, Hoang Thanh-Tung, Naoya Inoue

개요

본 논문은 대규모 언어 모델(LLM)의 언러닝(unlearning)을 위한 효과적인 방법인 표현 오류 유도(RMU)의 작동 원리를 이론적으로 규명하고, 성능 개선을 위한 Adaptive RMU를 제안합니다. RMU는 중간층의 표현을 목표 무작위 표현으로 조향하여 토큰 신뢰도를 낮추고, 잘못되거나 무의미한 응답을 생성하도록 함으로써 언러닝을 수행합니다. 논문에서는 계수가 잊어야 할 샘플 표현과 무작위 방향의 정렬에 미치는 영향을 조사하고, 다양한 네트워크 계층에서 효과적인 언러닝을 위한 최적 계수 값을 암시합니다. 또한 RMU 언러닝 모델이 적대적 탈옥 공격에 강인하다는 것을 보여주고, 중간층과 후반층에 적용될 때 효과가 떨어지는 RMU의 한계를 해결하기 위해 계산 비용 증가 없이 대부분의 계층에서 언러닝을 효과적으로 만드는 Adaptive RMU를 제안합니다. 광범위한 실험을 통해 Adaptive RMU가 기존 방법에 비해 언러닝 성능을 크게 향상시킨다는 것을 보여줍니다.