본 논문은 대규모 언어 모델(LLM)의 안전성 확보를 위한 연구를 제시합니다. 안전성 정렬 메커니즘의 취약성을 지적하며, 안전성 정렬이 사용자의 요청을 수락하거나 거부하는 이진 분류 문제로 해석될 수 있다는 '표면적 안전성 정렬 가설'(SSAH)을 제안합니다. 이 가설을 바탕으로 안전성 유지를 위한 핵심 요소들을 파악하고, 안전성 중요 유닛(SCU), 유용성 중요 유닛(UCU), 복합 유닛(CU), 중복 유닛(RU)과 같은 네 가지 유형의 속성 중요 구성요소를 성공적으로 식별했습니다. 특히, 미세 조정 과정에서 특정 안전성 중요 구성요소를 고정하면 새로운 작업에 적응하면서도 안전성 속성을 유지할 수 있으며, 사전 훈련된 모델의 중복 유닛을 "정렬 예산"으로 활용하여 정렬 목표를 달성하면서 정렬 비용을 최소화할 수 있음을 보여줍니다. 결론적으로, LLM 안전성의 최소 기능 단위는 뉴런 수준이며, 안전성 정렬이 복잡할 필요가 없음을 강조합니다.