본 연구는 대규모 언어 모델(LLM)이 적대적으로 상호작용할 때 취약점이 어떻게 확장되는지 탐구합니다. 특히, 더 큰 모델이 정렬 안전 장치에도 불구하고 작은 모델의 유해하거나 제한적인 행동을 유도할 수 있는지 조사합니다. JailbreakBench의 표준화된 적대적 작업을 사용하여 주요 LLM 제품군과 규모(0.6B-120B 매개변수)에서 6,000개 이상의 다중 턴 공격자-대상 교환을 시뮬레이션하고, 유해 점수와 거부 행동을 측정하여 적대적 효능과 정렬 무결성을 평가했습니다. 그 결과, 공격자-대상 크기 비율과 유해 점수 간에 유의미한 상관관계가 있으며, 공격자 측의 행동 다양성이 적대적 결과에 더 크게 기여한다는 것을 발견했습니다. 또한 공격자 거부 빈도는 유해 점수와 강한 음의 상관관계를 보였습니다.