Sign In

Steering Large Language Model Activations in Sparse Spaces

Created by
  • Haebom
Category
Empty

저자

Reza Bayat, Ali Rahimi-Kalahroudi, Mohammad Pezeshki, Sarath Chandar, Pascal Vincent

개요

본 논문은 대규모 언어 모델(LLM)의 테스트 시점에서 원하는 동작을 따르도록 유도하는 AI 정렬의 핵심 과제를 해결하기 위해 희소 활성화 조향(SAS) 기법을 제안한다. 기존의 밀집 활성화 공간에서의 활성화 조향은 여러 특징이 얽히는 중첩 현상으로 인해 해석성과 정밀한 제어가 어려웠다. 반면, 희소 표현은 더욱 해석 가능한 동작 변조를 위한 활용되지 않은 기회를 제공한다. SAS는 희소 자동 인코더(SAE)를 활용하여 희소 공간에서 LLM의 동작을 조향한다. 대조적인 프롬프트 페어링 접근 방식을 통해 동작 특유의 특징을 분리함으로써, 동작을 선택적으로 강화하거나 억제할 수 있는 특징 집합을 정의한다. Gemma 2 LLM에 대한 실험 결과, SAS 벡터는 미묘한 행동 변조와 더 세분화된 제어를 가능하게 함을 보여준다. 또한, SAE의 확장은 SAS 벡터의 단일 의미성을 향상시켜 더 신뢰할 수 있고 해석 가능한 개입을 시사한다.

시사점, 한계점

시사점:
희소 활성화 조향(SAS) 기법을 통해 LLM의 행동을 더욱 정밀하고 해석 가능하게 제어할 수 있음을 보여줌.
희소 자동 인코더(SAE)를 활용하여 밀집 활성화 공간의 중첩 문제를 해결하고, 단일 의미성이 높은 SAS 벡터를 생성.
Gemma 2 LLM에서 SAS의 효과를 실험적으로 검증.
한계점:
현재는 Gemma 2 LLM에 대한 실험 결과만 제시되었으며, 다른 LLM이나 다양한 작업에 대한 일반화 가능성은 추가 연구가 필요.
SAE의 확장이 항상 SAS 벡터의 단일 의미성을 향상시키는 것은 아닐 수 있으며, 그 관계에 대한 추가 분석 필요.
SAS 벡터의 해석성 향상에 대한 정량적인 평가가 부족.
👍