본 논문은 대규모 언어 모델(LLM)의 안전성 취약점을 해결하기 위한 경량화되고 모듈화된 접근 방식인 "패칭"을 제안합니다. 이는 소프트웨어 버전과 유사하게 작동하며, 모델의 주요 릴리스 없이 안전성 업데이트를 신속하게 적용할 수 있도록 합니다. 기존 모델에 작은 학습 가능한 접두사를 추가하여 모델의 동작을 더 안전한 참조 모델에 가깝게 조정합니다. 이 패치는 단 0.003%의 추가 파라미터만 사용하면서도 독성 완화, 편견 감소, 유해성 거부 등 세 가지 주요 안전성 영역에서 차세대 안전성 정렬 모델과 유사한 개선 효과를 보였습니다.