본 논문은 대규모 언어 모델(LLM)의 안전하고 신뢰할 수 있는 배포를 위해 탈옥 공격으로부터 LLM을 방어하는 새로운 프레임워크인 인지 기반 방어(CDD)를 제안합니다. 기존 방어 기법들이 새로운 공격 전략에 일반화하는 데 어려움을 겪는 표면적인 패턴 매칭에 의존하는 것과 달리, CDD는 유해한 의도를 은폐하는 기본 조작인 메타 연산을 적용하여 탈옥 프롬프트의 근본적인 구조를 목표로 합니다. CDD는 구조화된 추론 체인을 통해 인간의 인지 추론을 에뮬레이트하며, 프롬프트에 대한 전반적인 인식으로 시작하여 국소적인 분석을 통해 숨겨진 조작을 발견합니다. 이 구조화된 체인에 대한 지도 학습 파인튜닝을 적용하여 모델은 알려진 조작 패턴을 식별하고 추론하는 방법을 학습합니다. 미지의 위협에 대한 일반화를 향상시키기 위해 새로운 유형 및 변형의 메타 연산 탐색을 장려하는 엔트로피 기반 강화 학습 알고리즘(EG-GRPO)이 도입되었습니다. 실험 결과, CDD는 최첨단 방어 성능을 달성하고 미지의 탈옥 공격에 대한 강력한 일반화를 보여줍니다.