본 논문은 대규모 언어 모델(LLM)의 테스트 시점에서 원하는 동작을 따르도록 유도하는 AI 정렬의 핵심 과제를 해결하기 위해 희소 활성화 조향(SAS) 기법을 제안한다. 기존의 밀집 활성화 공간에서의 활성화 조향은 여러 특징이 얽히는 중첩 현상으로 인해 해석성과 정밀한 제어가 어려웠다. 반면, 희소 표현은 더욱 해석 가능한 동작 변조를 위한 활용되지 않은 기회를 제공한다. SAS는 희소 자동 인코더(SAE)를 활용하여 희소 공간에서 LLM의 동작을 조향한다. 대조적인 프롬프트 페어링 접근 방식을 통해 동작 특유의 특징을 분리함으로써, 동작을 선택적으로 강화하거나 억제할 수 있는 특징 집합을 정의한다. Gemma 2 LLM에 대한 실험 결과, SAS 벡터는 미묘한 행동 변조와 더 세분화된 제어를 가능하게 함을 보여준다. 또한, SAE의 확장은 SAS 벡터의 단일 의미성을 향상시켜 더 신뢰할 수 있고 해석 가능한 개입을 시사한다.