대규모 언어 모델(LLM)은 유해한 지시를 거부함으로써 안전 지침을 준수하도록 정렬됩니다. '소멸(abliteration)'이라 불리는 최근 공격은 거부 행동에 가장 큰 책임이 있는 단일 잠재 방향을 격리하고 억제하여 모델이 비윤리적인 콘텐츠를 생성할 수 있도록 합니다. 본 논문은 모델이 거부를 생성하는 방식을 수정하는 방어 기법을 제안합니다. 유해한 프롬프트와 거부 이유를 설명하는 전체 응답을 포함하는 확장된 거부 데이터 세트를 구성합니다. 그런 다음 Llama-2-7B-Chat 및 Qwen2.5-Instruct (1.5B 및 3B 매개변수)를 확장된 거부 데이터 세트에 대해 미세 조정하고, 일련의 유해한 프롬프트에 대해 결과 시스템을 평가합니다. 실험 결과, 확장된 거부 모델은 거부율을 최대 10%까지 떨어뜨리지만 기준 모델의 거부율은 소멸 후 70~80% 감소하는 것과 달리 높은 거부율을 유지합니다. 안전성과 유용성에 대한 광범위한 평가는 확장된 거부 미세 조정이 일반적인 성능을 유지하면서 소멸 공격을 무력화함을 보여줍니다.