본 논문은 대규모 언어 모델(LLM)의 안전 정렬된 행동, 특히 유해한 질의 거부를 활성화 공간의 선형 방향으로 나타낼 수 있다는 점을 연구합니다. 기존 연구는 단일 방향으로 안전 행동을 모델링하여 특정 안전 기능에 대한 기계적 이해에 한계가 있었습니다. 본 연구는 Llama 3 8B에 대한 안전 미세 조정 중 표현 변화의 벡터 공간을 연구하여 안전 정렬된 행동이 다차원 방향에 의해 공동으로 제어됨을 발견했습니다. 주요 방향은 모델의 거부 행동을 지배하고, 여러 작은 방향은 가상적 이야기와 역할극과 같은 구별되고 해석 가능한 특징을 나타냅니다. 또한, 서로 다른 방향이 주요 방향을 어떻게 촉진하거나 억제하는지 측정하여 보조 방향이 모델의 거부 표현을 형성하는 데 중요한 역할을 한다는 것을 보여줍니다. 마지막으로, 유해한 질의에서 특정 트리거 토큰을 제거하면 이러한 방향을 완화하여 학습된 안전 기능을 우회할 수 있음을 보여주어 다차원적 관점에서 안전 정렬 취약성을 이해하는 데 대한 새로운 통찰력을 제공합니다.