On Effects of Steering Latent Representation for Large Language Model Unlearning

작성자

Haebom

카테고리

비어 있음

저자

Dang Huu-Tien, Trung-Tin Pham, Hoang Thanh-Tung, Naoya Inoue

개요

본 논문은 대규모 언어 모델(LLM)의 언러닝(unlearning)을 위한 효과적인 방법인 표현 전환(Representation Misdirection for Unlearning, RMU)에 대한 이론적 및 실험적 분석을 제시합니다. RMU는 중간 계층의 모델 표현을 목표 무작위 표현으로 유도하여 언러닝을 수행합니다. 논문에서는 중간 계층에서 망각 표현(forget representations)을 조절하는 것이 토큰 확신도를 낮추어 잘못되거나 무의미한 응답을 생성하게 만드는 원리를 이론적으로 증명합니다. 또한 계수가 망각 샘플 표현과 무작위 방향의 정렬에 미치는 영향을 조사하고, 다양한 네트워크 계층에서 효과적인 언러닝을 위한 최적 계수 값을 암시합니다. RMU로 언러닝된 모델이 적대적 탈옥 공격에 강하다는 것을 보여주고, 중간 및 후기 계층에 적용할 경우 RMU의 효과가 떨어지는 점을 실험적으로 확인합니다. 이러한 단점을 해결하기 위해, 대부분의 계층에서 언러닝을 효과적으로 만드는 간단하면서도 효과적인 대안 방법인 적응형 RMU(Adaptive RMU)를 제안합니다. 광범위한 실험을 통해 적응형 RMU가 기존 방법보다 언러닝 성능을 크게 향상시키면서 추가적인 계산 비용이 발생하지 않음을 보여줍니다.