Jeremy Kritz, Vaughn Robinson, Robert Vacareanu, Bijan Varjavand, Michael Choi, Bobby Gogov, Scale Red Team, Summer Yue, Willow E. Primack, Zifan Wang
개요
본 논문은 거대 언어 모델(LLM)을 이용하여 다른 모델의 취약점을 공격하는(예: 탈옥) 방법을 연구합니다. 기존 연구들이 주로 개방형 모델이나 검열되지 않은 비공개 모델을 사용한 반면, 본 연구는 거의 모든 블랙박스 LLM을 공격자로 활용할 수 있는 방법을 제시합니다. $J_2$ (jailbreaking-to-jailbreaking) 공격자는 다양한 전략을 사용하여 표적 모델의 안전장치를 효과적으로 우회할 수 있으며, 이러한 전략은 $J_2$ 공격자 스스로 생성하거나 전문가에 의해 생성될 수 있습니다. 실험 결과, $J_2$ 공격자 생성에 사용된 프롬프트는 거의 모든 블랙박스 모델에 적용 가능하며, $J_2$ 공격자는 자신과 동일한 모델을 탈옥할 수 있고, 이러한 취약성은 지난 12개월 동안 빠르게 증가했습니다. 또한 Sonnet-3.7과 같은 추론 모델이 다른 모델에 비해 강력한 $J_2$ 공격자임을 보여줍니다. 예를 들어, GPT-4o의 안전장치에 대한 공격 성공률(ASR)은 Sonnet-3.7을 사용한 $J_2$ 공격자가 0.975로 전문가 수준의 공격과 동일하고 기존 알고리즘 기반 공격을 능가합니다. $J_2$ 공격자 중에서는 o3을 사용한 $J_2$ 공격자가 가장 강력한 모델 중 하나인 Sonnet-3.5에 대해 0.605의 ASR을 달성했습니다.
시사점, 한계점
•
시사점:
◦
거의 모든 블랙박스 LLM을 공격자로 활용 가능한 새로운 공격 기법 ($J_2$) 제시.
◦
$J_2$ 공격자 생성에 사용된 프롬프트의 높은 이전성 확인.
◦
LLM의 자기 탈옥 취약성과 그 심각성 증가를 증명.
◦
추론 모델의 강력한 $J_2$ 공격 능력 확인.
◦
기존 알고리즘 기반 공격을 능가하는 공격 성공률 달성.
•
한계점:
◦
본 연구는 특정 모델과 프롬프트에 대한 실험 결과를 기반으로 하며, 모든 LLM에 일반화될 수 있는지 추가 연구 필요.