On Effects of Steering Latent Representation for Large Language Model Unlearning

Created by

Haebom

저자

Dang Huu-Tien, Trung-Tin Pham, Hoang Thanh-Tung, Naoya Inoue

개요

본 논문은 대규모 언어 모델(LLM)의 언러닝(unlearning)을 위한 효과적인 방법인 표현 오류 유도(RMU)에 대한 이론적 및 실험적 분석을 제시합니다. RMU는 중간층의 모델 표현을 목표 무작위 표현으로 유도하여 언러닝을 수행합니다. 본 논문에서는 중간층에서 망각 표현을 유도하는 것이 토큰 신뢰도를 감소시켜 LLM이 잘못되거나 무의미한 응답을 생성하는 원인을 이론적으로 증명하고, 계수가 망각 샘플 표현과 무작위 방향의 정렬에 미치는 영향을 조사하여 다양한 네트워크 계층에서 효과적인 언러닝을 위한 최적 계수 값을 제시합니다. 또한 RMU로 언러닝된 모델이 적대적 탈옥 공격에 강하다는 것을 보여주고, RMU가 LLM의 중간 및 후반 계층에 적용될 때 효과가 떨어지는 현상을 실험적으로 확인하여 이를 해결하기 위해 모든 계층에서 언러닝을 효과적으로 수행할 수 있는 간단하면서도 효과적인 대안 방법인 적응형 RMU(Adaptive RMU)를 제안합니다. 광범위한 실험을 통해 적응형 RMU가 기존 방법보다 언러닝 성능을 크게 향상시키는 동시에 추가적인 계산 비용이 발생하지 않음을 보여줍니다.