Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

M2S: Multi-turn to Single-turn jailbreak in Red Teaming for LLMs

Created by
  • Haebom

저자

Junwoo Ha, Hyunjun Kim, Sangyoon Yu, Haon Park, Ashkan Yousefpour, Yuna Park, Suhyun Kim

개요

본 논문은 대규모 언어 모델(LLM)의 적대적 테스트에 필요한 수작업 부담을 크게 줄이기 위해, 다회차 적대적 "탈옥" 프롬프트를 단일 회차 질의로 통합하는 새로운 프레임워크를 제시합니다. 다회차 인간 탈옥은 높은 공격 성공률을 보여주지만 상당한 인적 자원과 시간을 필요로 합니다. 본 논문에서 제안하는 다회차-단일회차(M2S) 방법(Hyphenize, Numberize, Pythonize)은 다회차 대화를 구조화된 단일 회차 프롬프트로 체계적으로 재형식화합니다. 반복적인 상호 작용을 제거함에도 불구하고, 이러한 프롬프트는 적대적 효능을 유지하고 종종 향상시킵니다. Multi-turn Human Jailbreak (MHJ) 데이터셋에 대한 광범위한 평가에서 M2S 방법은 여러 최첨단 LLM에서 70.6%에서 95.9%의 공격 성공률을 달성합니다. 놀랍게도, 단일 회차 프롬프트는 원래의 다회차 공격보다 최대 17.5%p 더 높은 성능을 보이며, 평균 토큰 사용량을 절반 이상 줄입니다. 추가 분석에 따르면, 열거형 또는 코드와 같은 구조에 악의적인 요청을 포함시키는 것이 "맥락적 맹점"을 이용하여 기본적인 안전장치와 외부 입출력 필터를 모두 우회합니다. M2S 프레임워크는 다회차 대화를 간결한 단일 회차 프롬프트로 변환함으로써 대규모 적대적 테스트를 위한 확장 가능한 도구를 제공하고 현대 LLM 방어의 중요한 약점을 드러냅니다.

시사점, 한계점

시사점:
다회차 적대적 공격을 단일 회차로 효율적으로 변환하는 방법을 제시하여 LLM의 적대적 테스트를 위한 효율성을 크게 향상시켰습니다.
단일 회차 프롬프트가 다회차 프롬프트보다 높은 공격 성공률을 달성함을 보여주어 기존 방어 메커니즘의 취약점을 드러냈습니다.
LLM의 "맥락적 맹점"을 이용한 새로운 공격 기법을 제시했습니다.
대규모 적대적 테스트를 위한 확장 가능한 프레임워크를 제공합니다.
한계점:
제시된 M2S 방법의 일반화 가능성에 대한 추가 연구가 필요합니다.
특정 유형의 LLM이나 특정 유형의 적대적 공격에 대해서만 효과적일 가능성이 있습니다.
M2S 방법이 모든 유형의 탈옥 공격에 효과적이지는 않을 수 있습니다. 더욱 다양한 공격 유형에 대한 평가가 필요합니다.
👍