Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

One-Shot is Enough: Consolidating Multi-Turn Attacks into Efficient Single-Turn Prompts for LLMs

Created by
  • Haebom

저자

Junwoo Ha, Hyunjun Kim, Sangyoon Yu, Haon Park, Ashkan Yousefpour, Yuna Park, Suhyun Kim

개요

본 논문은 대규모 언어 모델(LLM)의 적대적 테스트에 필요한 수작업 부담을 크게 줄이기 위해, 다회차 적대적 "탈옥" 프롬프트를 단일 회차 질문으로 통합하는 새로운 프레임워크를 제시합니다. 다회차 인간 탈옥은 높은 공격 성공률을 보여주지만 상당한 인력과 시간을 필요로 합니다. 본 논문에서 제시하는 다회차 대 단일회차(M2S) 방법론인 Hyphenize, Numberize, Pythonize는 다회차 대화를 구조화된 단일 회차 프롬프트로 체계적으로 재형식화합니다. 반복적인 상호 작용을 제거했음에도 불구하고, 이러한 프롬프트는 적대적 잠재력을 유지하고 종종 향상시킵니다. Multi-turn Human Jailbreak (MHJ) 데이터셋에 대한 광범위한 평가에서 M2S 방법은 여러 최첨단 LLM에서 70.6%에서 95.9%의 공격 성공률을 달성합니다. 놀랍게도 단일 회차 프롬프트는 원래의 다회차 공격보다 최대 17.5%p 더 높은 성능을 보이며, 평균 토큰 사용량은 절반 이상 감소시킵니다. 추가 분석에 따르면, 열거된 구조 또는 코드와 같은 구조에 악의적인 요청을 포함시키는 것이 "맥락적 맹점"을 악용하여 기본 보호 장치와 외부 입력-출력 필터를 모두 우회합니다. M2S 프레임워크는 다회차 대화를 간결한 단일 회차 프롬프트로 변환하여 대규모 적대적 테스트를 위한 확장 가능한 도구를 제공하고 현대 LLM 방어의 중요한 약점을 드러냅니다.

시사점, 한계점

시사점:
다회차 적대적 공격을 단일 회차로 효율적으로 변환하는 방법을 제시하여 LLM의 적대적 테스트의 효율성을 크게 높였습니다.
단일 회차 프롬프트가 다회차 프롬프트보다 높은 공격 성공률을 달성하고 토큰 사용량을 감소시키는 것을 보여주었습니다.
LLM의 "맥락적 맹점"을 이용한 새로운 공격 기법을 제시했습니다.
대규모 적대적 테스트를 위한 확장 가능한 도구를 제공합니다.
현대 LLM 방어의 중요한 약점을 드러냅니다.
한계점:
제시된 M2S 방법론의 일반성 및 다양한 LLM과 적대적 공격 유형에 대한 적용 가능성에 대한 추가 연구가 필요합니다.
특정 구조(열거, 코드 등)에 의존하는 방법론의 한계가 존재할 수 있습니다.
새로운 방어 기법 개발에 대한 논의는 부족합니다.
👍