본 논문은 대규모 언어 모델(LLM)의 보안에 심각한 위협을 가하는 백도어 공격에 대한 연구를 제시합니다. 특히, 고정된 트리거에서 동적 또는 암시적 트리거로 진화하는 공격의 특징을 분석하고, 트리거 형태를 정확하게 식별하기 어렵다는 문제점을 지적합니다. 이에 따라, 사전 트리거 지식 없이 백도어를 탐지하는 주의 유사성 기반 탐지 방법을 제안합니다. 실험 결과, 백도어 공격을 받은 모델은 트리거에 노출되었을 때 주의 헤드 간에 비정상적으로 높은 유사성을 보입니다. 이러한 관찰을 바탕으로, 주의 안전성 정렬 접근 방식과 헤드별 미세 조정을 결합하여 오염된 주의 헤드를 수정함으로써 백도어 공격의 영향을 효과적으로 완화합니다. 제안된 방법은 다운스트림 작업에서 모델 성능을 유지하면서 백도어 공격 성공률을 유의미하게 감소시키는 것으로 나타났습니다.