본 논문은 대규모 언어 모델(LLM)의 안전 정렬에 대한 기존 연구들이 표면적으로 작동하여 다양한 적대적 공격에 취약하다는 점을 지적합니다. 기존 연구들이 데이터 증강 외에는 실질적인 해결책을 제시하지 못하는 한계를 극복하기 위해, 본 논문은 안전 관련 추론 과제를 암묵적으로 학습한다는 기존 접근 방식의 가정에 문제를 제기합니다. 경쟁적인 다른 목표들로 인해 안전 관련 신호가 희석되어 적대적 공격에 대한 명확한 안전 의식적 의사결정 경계를 설정하는 데 어려움을 겪는다는 점을 밝힙니다. 이를 해결하기 위해, 안전 관련 이진 분류 작업을 명시적으로 도입하고, 이 신호를 어텐션 및 디코딩 전략에 통합하여 모델이 악의적인 질의에 더 책임감 있게 응답할 수 있도록 합니다. 0.2배 미만의 오버헤드 비용으로, 질의와 이전에 생성된 토큰의 안전성을 각 생성 단계에서 평가할 수 있게 함으로써, 다양한 적대적 공격에 대한 LLM의 복원력을 크게 향상시키는 것을 실험적으로 증명합니다.