본 연구는 대규모 언어 모델(LLM)에 대한 블랙박스 탈옥 공격에서 공격 성공률(ASR)을 예측하는 경량 모델인 좁은 안전성 프록시 구축의 가능성을 탐구한다. LLM의 핵심 보안 로직의 증류 가능성을 조사하기 위해, 향상된 개요 채우기 공격을 통합하여 모델의 보안 경계를 조밀하게 샘플링하는 새로운 프레임워크를 제안한다. 또한, 표준 회귀를 대체하는 순위 회귀 패러다임을 도입하여 프록시 모델이 어떤 프롬프트가 더 높은 ASR을 생성하는지 예측하도록 훈련시킨다. 실험 결과, 제안된 프록시 모델은 평균 긴 응답(ALR)의 상대적 순위를 예측하는 데 91.1%, ASR을 예측하는 데 69.2%의 정확도를 달성했다.