본 논문은 대규모 언어 모델(LLM)의 안전성 향상을 위한 새로운 방법인 Rank-One Safety Injection (ROSI)을 제안합니다. ROSI는 모델의 활성화를 거부 매개 하위 공간으로 영구적으로 조향하는 단순한, 파인튜닝이 필요 없는 rank-one 가중치 수정 방법입니다. 유해한 지시어와 무해한 지시어 쌍의 작은 집합으로부터 필요한 안전 방향을 계산하고, 모든 잔차 스트림 쓰기 행렬에 적용합니다. Llama Guard 3 평가 결과, ROSI는 모델의 유용성을 유지하면서 안전 거부율을 일관되게 높이는 것으로 나타났습니다. 또한, '검열되지 않은' 모델의 잠재적 안전 방향을 증폭하여 재정렬할 수 있음을 보여주며, 효과적인 마지막 단계 안전 절차로서의 유용성을 입증합니다. 결과적으로, 목표 지향적이고 해석 가능한 가중치 조향은 LLM 안전성을 향상시키는 저렴하고 강력한 메커니즘이며, 더 많은 리소스를 필요로 하는 파인튜닝 패러다임을 보완합니다.