본 논문은 기존의 백박스 방식 대신 기계적 해석 가능성 기법을 활용하여 대규모 언어 모델(LLM)에 대한 실용적인 적대적 입력을 생성하는 새로운 백박스 접근 방식을 제시합니다. 모델의 거부 메커니즘을 트리거하지 않는 특징 벡터 집합인 '수용 하위 공간'을 식별한 후, 기울기 기반 최적화를 사용하여 거부 하위 공간에서 수용 하위 공간으로 임베딩을 재경로하여 '탈옥'을 효과적으로 달성합니다. Gemma2, Llama3.2, Qwen2.5 등 최첨단 모델에 대해 기존 기법보다 훨씬 빠르게(몇 분 또는 몇 초 이내) 80-95%의 공격 성공률을 달성합니다. 이는 기계적 해석 가능성의 실용적인 응용을 보여주는 동시에 공격 연구와 방어 개발 모두에 새로운 방향을 제시합니다. 코드와 생성된 데이터셋은 GitHub에서 공개됩니다.