로그인

On Effects of Steering Latent Representation for Large Language Model Unlearning

작성자
  • Haebom
카테고리
비어 있음

저자

Dang Huu-Tien, Trung-Tin Pham, Hoang Thanh-Tung, Naoya Inoue

개요

본 논문은 대규모 언어 모델(LLM)의 언러닝(unlearning)을 위한 효과적인 방법인 표현 전환(Representation Misdirection for Unlearning, RMU)에 대한 이론적 및 실험적 분석을 제시합니다. RMU는 중간 계층의 모델 표현을 목표 무작위 표현으로 유도하여 언러닝을 수행합니다. 논문에서는 중간 계층에서 망각 표현(forget representations)을 조절하는 것이 토큰 확신도를 낮추어 잘못되거나 무의미한 응답을 생성하게 만드는 원리를 이론적으로 증명합니다. 또한 계수가 망각 샘플 표현과 무작위 방향의 정렬에 미치는 영향을 조사하고, 다양한 네트워크 계층에서 효과적인 언러닝을 위한 최적 계수 값을 암시합니다. RMU로 언러닝된 모델이 적대적 탈옥 공격에 강하다는 것을 보여주고, 중간 및 후기 계층에 적용할 경우 RMU의 효과가 떨어지는 점을 실험적으로 확인합니다. 이러한 단점을 해결하기 위해, 대부분의 계층에서 언러닝을 효과적으로 만드는 간단하면서도 효과적인 대안 방법인 적응형 RMU(Adaptive RMU)를 제안합니다. 광범위한 실험을 통해 적응형 RMU가 기존 방법보다 언러닝 성능을 크게 향상시키면서 추가적인 계산 비용이 발생하지 않음을 보여줍니다.

시사점, 한계점

시사점:
RMU의 작동 원리를 이론적으로 설명하고, 중간 계층 표현 조작을 통한 언러닝의 효과성을 입증했습니다.
적대적 탈옥 공격에 대한 RMU의 강건성을 확인했습니다.
RMU의 계층별 효과 차이를 분석하고, 이를 개선하는 적응형 RMU를 제안했습니다.
적응형 RMU는 기존 방법보다 우수한 언러닝 성능을 보이며 추가적인 계산 비용이 없습니다.
한계점:
RMU가 중간 및 후기 계층에 적용될 때 효과가 떨어지는 현상에 대한 완벽한 해결책은 아닐 수 있습니다. (적응형 RMU는 개선안이나, 완벽한 해결책은 아님을 암시)
다양한 LLM 아키텍처 및 데이터셋에 대한 일반화 가능성에 대한 추가적인 연구가 필요합니다.
👍