대규모 언어 모델(LLM)은 교묘한 프롬프트를 사용하여 유해한 응답을 유도하는 탈옥 공격에 취약합니다. 이러한 공격은 생성 과정 중 유해한 의도를 동적으로 감지하는 데 어려움을 겪는 LLM의 취약점을 이용합니다. 초기 몇 단계의 생성에 의존하는 기존의 안전 정렬 방법은 계산 비용이 제한적이기 때문에 효과적이지 않습니다. 본 논문에서는 생성된 콘텐츠를 점진적으로 무독화하도록 LLM을 미세 조정하여 계산 비용과 유해한 생성 완화의 효과를 모두 크게 향상시키는 강력한 방어 프레임워크인 DEEPALIGN을 제안합니다. 본 연구는 은닉 상태에서 작동하는 하이브리드 손실 함수를 사용하여 생성 중에 LLM의 유해성에 대한 고유한 인식을 직접적으로 향상시킵니다. 또한, 유해한 질의에 대해 의미적으로 관련된 답변을 생성함으로써 안전한 응답을 재정의하여 표현 변형 공격에 대한 강력성을 높입니다. 여러 LLM에 대한 평가는 6가지 다른 공격 유형에 대해 최첨단 방어 성능을 보여주며, 기존 최첨단 방어에 비해 공격 성공률을 최대 두 자릿수까지 감소시키면서 유용성을 유지합니다. 이 연구는 동적이고 맥락을 인식하는 완화를 통해 기존 정렬의 한계를 해결함으로써 LLM 안전성을 발전시킵니다.