본 논문은 대규모 언어 모델(LLM)의 보안 정렬 메커니즘 취약성을 해결하기 위해 공격과 방어를 통합하는 새로운 프레임워크를 제안합니다. LLM 중간 계층 임베딩의 선형 분리 가능성과 악의적인 질문을 안전 영역으로 전달하는 Jailbreak 공격의 본질에 기반하여, 생성적 적대 신경망(GAN)을 활용하여 LLM 내부의 보안 판단 경계를 학습합니다. 실험 결과, 세 가지 주요 LLM에서 평균 88.85%의 Jailbreak 성공률과 최신 Jailbreak 데이터셋에서 평균 84.17%의 방어 성공률을 달성하여 제안된 방법의 효과성을 검증하고 LLM의 내부 보안 메커니즘에 대한 새로운 통찰력을 제공합니다. 코드와 데이터는 https://github.com/NLPGM/CAVGAN 에서 확인 가능합니다.