Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models

Created by
  • Haebom
Category
Empty

저자

Piercosma Bisconti, Matteo Prandi, Federico Pierucci, Francesco Giarrusso, Marcantonio Bracale, Marcello Galisai, Vincenzo Suriani, Olga Sorokoletova, Federico Sartore, Daniele Nardi

개요

본 논문은 적대적 시가 대규모 언어 모델(LLM)에 대한 보편적인 단일 턴 탈옥 기술로 작용한다는 증거를 제시한다. 25개의 최첨단 독점 및 오픈 가중치 모델에서, 큐레이션된 시적 프롬프트는 높은 공격 성공률(ASR)을 보였으며, 일부 제공업체는 90%를 초과했다. 시적 공격은 MLCommons 및 EU CoP 위험 분류 체계에 따라 CBRN, 조작, 사이버 공격 및 통제력 상실 도메인으로 전파된다. 1,200개의 MLCommons 유해 프롬프트를 표준화된 메타 프롬프트를 통해 시로 변환한 결과, 산문 기준선보다 최대 18배 높은 ASR을 보였다. 출력은 오픈 가중치 judge 모델 앙상블과 사람 검증된 계층화된 하위 집합(합의를 측정하기 위한 이중 주석 포함)을 사용하여 평가되었다. 불일치는 수동으로 해결되었다. 시적 프레이밍은 손으로 제작된 시의 경우 평균 62%, 메타 프롬프트 변환의 경우 약 43%의 탈옥 성공률을 달성하여, 비시적 기준선을 훨씬 능가하며 모델 제품군 및 안전 훈련 접근 방식 전반에서 체계적인 취약성을 드러냈다. 이러한 결과는 스타일 변화만으로도 현대 안전 메커니즘을 우회할 수 있음을 보여주며, 현재의 정렬 방법과 평가 프로토콜의 근본적인 한계를 시사한다.

시사점, 한계점

시적 공격의 효과: 적대적 시가 LLM에 대한 보편적인 단일 턴 탈옥 기술로 작용하며, 높은 공격 성공률을 보인다.
광범위한 영향: 시적 공격은 다양한 모델 및 위험 도메인에 걸쳐 전파된다.
메타 프롬프트 변환의 성공: 표준화된 메타 프롬프트를 통한 시적 변환이 높은 ASR을 보였다.
평가 방법론: 오픈 가중치 judge 모델 앙상블 및 인간 검증을 통해 출력을 평가했다.
안전 메커니즘의 한계: 스타일 변화만으로 안전 메커니즘을 우회할 수 있어, 현재 정렬 방법의 한계를 시사한다.
한계점: 논문에서 구체적인 공격 메커니즘에 대한 자세한 설명이나, 방어 전략에 대한 언급이 부족할 수 있다. 모델 별 취약성 및 공격 성공률에 대한 추가 분석이 필요할 수 있다.
👍