Sign In

On Effects of Steering Latent Representation for Large Language Model Unlearning

Created by
  • Haebom
Category
Empty

저자

Dang Huu-Tien, Trung-Tin Pham, Hoang Thanh-Tung, Naoya Inoue

개요

본 논문은 대규모 언어 모델(LLM)의 언러닝(unlearning)을 위한 효과적인 방법인 표현 오류 유도(RMU)의 작동 원리를 이론적으로 규명하고, 성능 개선을 위한 Adaptive RMU를 제안합니다. RMU는 중간층의 표현을 목표 무작위 표현으로 조향하여 토큰 신뢰도를 낮추고, 잘못되거나 무의미한 응답을 생성하도록 함으로써 언러닝을 수행합니다. 논문에서는 계수가 잊어야 할 샘플 표현과 무작위 방향의 정렬에 미치는 영향을 조사하고, 다양한 네트워크 계층에서 효과적인 언러닝을 위한 최적 계수 값을 암시합니다. 또한 RMU 언러닝 모델이 적대적 탈옥 공격에 강인하다는 것을 보여주고, 중간층과 후반층에 적용될 때 효과가 떨어지는 RMU의 한계를 해결하기 위해 계산 비용 증가 없이 대부분의 계층에서 언러닝을 효과적으로 만드는 Adaptive RMU를 제안합니다. 광범위한 실험을 통해 Adaptive RMU가 기존 방법에 비해 언러닝 성능을 크게 향상시킨다는 것을 보여줍니다.

시사점, 한계점

시사점:
RMU의 작동 원리를 이론적으로 규명하여 언러닝 메커니즘에 대한 이해를 증진시켰습니다.
RMU 언러닝 모델의 적대적 탈옥 공격에 대한 강인성을 확인했습니다.
기존 RMU의 한계를 극복하는 Adaptive RMU를 제안하여 언러닝 성능을 향상시켰습니다.
계산 비용 증가 없이 언러닝 성능을 개선했습니다.
한계점:
RMU는 중간층과 후반층에 적용될 때 효과가 떨어진다는 점이 밝혀졌습니다. (Adaptive RMU로 개선되었지만, 근본적인 원인에 대한 추가 연구가 필요할 수 있습니다.)
최적 계수 값은 다양한 네트워크 계층에 따라 다를 수 있으며, 이에 대한 더욱 심도있는 연구가 필요합니다.
👍