본 논문은 사전 훈련 과정에서 삽입된 유해 지식이, 지시 조정 및 선호도 학습을 통한 인간 가치 정렬에도 불구하고, 최첨단 정렬된 대규모 언어 모델(LLM)에 "암흑 패턴"으로 남아 있다는 것을 보여줍니다. 이러한 암흑 패턴은 분포 변화 시 적대적 유도 하에 재등장하며, 안전 장치를 회피합니다. 이론적으로는 현재의 정렬 방법이 지식 다양체 내에서 국소적인 "안전 영역"만 생성한다는 것을 증명하고, 반대로 사전 훈련된 지식은 높은 가능성의 적대적 경로를 통해 유해 개념과 전역적으로 연결되어 있음을 밝힙니다. 실험적으로는 분포 변화 하에서 의미 일관성 유도를 사용하여 최적화된 적대적 프롬프트를 통해 정렬 제약을 체계적으로 우회하는 방법을 통해 이러한 취약성을 검증합니다. DeepSeek-R1 및 LLaMA-3를 포함한 23개의 최첨단 정렬된 LLM 중 19개에서 100% 공격 성공률을 달성하여 이들의 보편적인 취약성을 드러냅니다.