본 논문은 대규모 언어 모델(LLM)의 안전한 배포를 위해 레드팀(적대적 공격 시뮬레이션)의 중요성을 강조하며, 기존의 프롬프트 엔지니어링 방식이 LLM의 능력이 향상됨에 따라 효과적이지 않을 수 있음을 지적합니다. 공격자와 표적 모델 간의 능력 차이를 분석 틀로 삼아 500개 이상의 공격자-표적 쌍을 평가하여 LLM 기반 탈옥 공격을 수행했습니다. 그 결과, (i) 더 능력 있는 모델이 더 효과적인 공격자가 되고, (ii) 표적 모델의 능력이 공격자의 능력을 넘어서면 공격 성공률이 급격히 감소하며, (iii) 공격 성공률은 MMLU-Pro 벤치마크의 사회과학 분야 성능과 상관관계가 있음을 발견했습니다. 이를 바탕으로 공격 성공률을 예측하는 탈옥 스케일링 법칙을 제시합니다.