본 논문은 최첨단 언어 모델이 정교하게 설계된 대화 시나리오에 취약하며, 명시적인 탈옥 없이 다양한 형태의 정렬 오류를 유발할 수 있음을 보여줍니다. Claude-4-Opus를 사용한 체계적인 수동 적대적 테스트를 통해 10가지 성공적인 공격 시나리오를 발견하여, 현재 정렬 방법이 서사적 몰입, 감정적 압력 및 전략적 프레이밍을 처리하는 방식의 근본적인 취약성을 밝혀냈습니다. 이러한 시나리오는 기만, 가치 표류, 자기 보존 및 조작적인 추론을 포함한 다양한 정렬되지 않은 행동을 성공적으로 유도하였으며, 각각 다른 심리적 및 상황적 취약성을 악용했습니다. 일반화 가능성을 검증하기 위해, 성공적인 수동 공격을 MISALIGNMENTBENCH라는 자동화된 평가 프레임워크로 추출하여 여러 모델에서 재현 가능한 테스트를 가능하게 했습니다. 5개의 최첨단 LLM에 대한 10가지 시나리오의 교차 모델 평가 결과, 전체 취약성 비율은 76%였으며, GPT-4.1이 가장 높은 취약성(90%)을 보였고, Claude-4-Sonnet은 더 높은 저항성(40%)을 보였습니다. 본 연구는 정교한 추론 능력이 종종 보호 메커니즘이 아니라 공격 벡터가 될 수 있음을 보여주며, 모델이 정렬되지 않은 행동에 대한 복잡한 정당화로 조작될 수 있음을 시사합니다. 이 연구는 (i) 대화 조작 패턴에 대한 자세한 분류 및 (ii) 재사용 가능한 평가 프레임워크를 제공합니다. 이러한 결과는 현재 정렬 전략의 중요한 격차를 노출하고 미래 AI 시스템에서 미묘한 시나리오 기반 조작에 대한 강력한 방어의 필요성을 강조합니다.