본 논문은 대규모 언어 모델(LLM)의 안전성 문제를 해결하기 위해 기하학적 접근 방식인 SaP(Safety Polytope)를 제안합니다. SaP는 모델의 표현 공간에서 여러 안전 제약 조건을 직접 학습하고 적용하여 안전한 영역과 안전하지 않은 영역을 구분합니다. 기존의 모델 가중치 수정 방식과 달리, SaP는 사후적으로 표현 공간에서 작동하여 모델의 성능을 유지하면서 안전성 제약 조건을 적용합니다. 다양한 LLM에 대한 실험을 통해 SaP가 비윤리적 입력을 효과적으로 감지하고, 적대적 공격 성공률을 낮추면서 표준 작업 성능을 유지하는 것을 보여줍니다. 학습된 다면체 면의 분석을 통해 안전성의 다양한 의미론적 개념을 감지하는 특수화가 나타나며, LLM의 표현 공간에서 안전성이 어떻게 포착되는지에 대한 해석 가능한 통찰력을 제공합니다.