본 논문은 대규모 언어 모델(LLM)의 안전성 정렬을 정밀하게 분석하고 개선하는 새로운 프레임워크인 Differentiated Bi-Directional Intervention (DBDI)를 제안합니다. 기존 연구가 안전성 거부 메커니즘을 단일 선형 방향으로 모델링하는 것을 비판하며, 해로운 요청 감지와 거부 실행이라는 두 가지 별개의 신경 프로세스로 분해합니다. DBDI는 이러한 분해된 모델을 기반으로, 핵심 레이어에서 안전성 정렬을 정확하게 무력화하기 위해 적응형 투영 무효화 기법과 직접 조정을 활용합니다. Llama-2와 같은 모델에서 최대 97.88%의 공격 성공률을 달성하며, LLM 안전성 정렬에 대한 새로운 시각을 제시합니다.