On Effects of Steering Latent Representation for Large Language Model Unlearning

작성자

Haebom

카테고리

비어 있음

저자

Dang Huu-Tien, Trung-Tin Pham, Hoang Thanh-Tung, Naoya Inoue

개요

본 논문은 대규모 언어 모델(LLM)의 언러닝(unlearning)을 위한 효과적인 방법인 표현 전환 언러닝(RMU)의 작동 원리를 이론적으로 규명하고, 그 효율성을 향상시키는 방법을 제시합니다. RMU는 중간 계층의 표현을 목표하는 무작위 표현으로 유도하여 언러닝을 수행하는데, 이 논문에서는 이 과정이 토큰 신뢰도를 감소시켜 잘못되거나 무의미한 응답을 생성하게 함을 보여줍니다. 또한, 계수가 잊어야 할 샘플 표현과 무작위 방향의 정렬에 미치는 영향을 조사하고, 다양한 네트워크 계층에서 효과적인 언러닝을 위한 최적 계수 값을 제시합니다. RMU가 적대적 탈옥 공격에 강력함을 보여주고, 중간 및 후반 계층에 적용 시 효율성이 떨어지는 문제점을 해결하기 위해, 모든 계층에서 언러닝을 효과적으로 수행하는 적응형 RMU(Adaptive RMU)를 제안합니다. 실험 결과, 적응형 RMU는 기존 방법보다 언러닝 성능을 크게 향상시키면서 추가적인 계산 비용이 발생하지 않음을 보여줍니다.