본 논문은 AutoDAN-Turbo와 같은 LLM jailbreaking 공격의 성능 향상을 위해 테스트 시 스케일링 기법을 제안한다. AutoDAN-Turbo는 자동화된 전략 발견을 통해 공격 전략 라이브러리를 구축하지만, 단일 프롬프트 생성으로 잠재력을 완전히 활용하지 못할 수 있다. 본 논문에서는 Best-of-N 및 Beam Search 두 가지 스케일링 방법을 도입하여 공격 성능을 개선한다. 실험 결과, Beam Search는 Llama-3.1-70B-Instruct에서 최대 15.6%p의 공격 성공률 증가를 보였고, GPT-o4-mini에 대한 상대적인 성능 향상도 약 60%에 달했다.