본 논문은 사전 학습 과정에서 획득한 유해한 지식이, 지시 조정 및 선호도 학습을 통한 정렬에도 불구하고, 대규모 언어 모델(LLM)의 매개변수 메모리에 "암흑 패턴"으로 남아, 분포 변화 시 적대적 유도 하에 재등장함을 보여줍니다. 이론적으로는 현재의 정렬 방법이 지식 다양체 내에서 국소적인 "안전 영역"만 생성하는 반면, 사전 학습된 지식은 높은 가능성의 적대적 경로를 통해 유해한 개념과 전역적으로 연결되어 있음을 증명합니다. 실험적으로는 분포 변화 하에서 의미적 일관성 유도를 통해 정렬 제약을 체계적으로 우회하는 최적화된 적대적 프롬프트를 사용하여 이를 검증합니다. 이를 통해 DeepSeek-R1 및 LLaMA-3를 포함한 23개의 최첨단 정렬된 LLM 중 19개에서 100% 공격 성공률을 달성하여, 이들의 보편적인 취약성을 밝힙니다.