본 논문은 대규모 언어 모델(LLM)의 안전 정렬(safety alignment)에 대한 기하학적 관점을 실험적으로 연구한 결과를 제시합니다. 기존 연구는 안전 정렬이 가중치 공간의 특정 기하학적 방향(하위 공간)에 집중되어 있으며, 이를 통해 안전성을 보존할 수 있다는 가정을 제기했습니다. 하지만 본 연구는 다섯 개의 오픈소스 LLM을 대상으로 한 실험을 통해 이러한 가정에 대한 반증을 제시합니다. 매개변수 공간과 활성화 공간 모두에서 안전한 행동을 증폭시키는 하위 공간은 동시에 안전하지 않은 행동도 증폭시키는 것으로 나타났으며, 안전성과 관련된 프롬프트는 중복되는 내부 표현을 활성화시키는 것으로 확인되었습니다. 즉, 안전성은 별개의 방향에 존재하는 것이 아니라 모델의 광범위한 학습 역동성과 밀접하게 연관된 고 영향력 구성요소들로부터 발생하는 것으로 보이며, 하위 공간 기반 방어의 근본적인 한계를 시사합니다.