Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Jailbreaking in the Haystack

Created by
  • Haebom
Category
Empty

저자

Rishi Rajesh Shah, Chen Henry Wu, Shashwat Saxena, Ziqian Zhong, Alexander Robey, Aditi Raghunathan

개요

최근 long-context 언어 모델의 발전으로 백만 토큰 입력을 처리할 수 있게 되었고, 컴퓨터 사용 에이전트와 같은 복잡한 작업에서 능력이 확장되었습니다. 그러나 이러한 확장된 컨텍스트의 안전성 문제는 아직 불분명합니다. 이 간극을 메우기 위해, NINJA (Needle-in-haystack jailbreak attack)라는 방법을 소개합니다. 이 방법은 해로운 사용자 목표에 무해한 모델 생성 콘텐츠를 추가하여 정렬된 언어 모델을 jailbreak 합니다. 우리의 방법론의 핵심은 해로운 목표의 위치가 안전성에 중요한 역할을 한다는 관찰입니다. HarmBench 표준 안전성 벤치마크 실험에서 NINJA는 LLaMA, Qwen, Mistral, Gemini를 포함한 최첨단 오픈 및 독점 모델에서 공격 성공률을 크게 증가시켰습니다. 이전 jailbreaking 방법과 달리, 우리의 접근 방식은 저자원, 전이 가능하며, 감지하기 어렵습니다. 또한 NINJA가 계산 효율적임을 보여줍니다. 고정된 계산 예산 하에서, 컨텍스트 길이를 늘리는 것이 best-of-N jailbreak에서 시도 횟수를 늘리는 것보다 성능이 우수할 수 있습니다. 이러한 발견은, 신중하게 목표 위치를 조정하여 제작된 경우, 무해한 긴 컨텍스트조차도 현대 언어 모델에 근본적인 취약성을 도입한다는 것을 보여줍니다.

시사점, 한계점

시사점:
긴 컨텍스트 언어 모델의 안전성 취약성을 드러냄.
NINJA 공격 기법을 통해, 해로운 목표의 위치를 조절하여 모델을 jailbreak 할 수 있음을 증명.
저자원, 전이 가능하며, 탐지하기 어려운 공격 기법 제시.
계산 효율적인 공격 방법론 제시.
한계점:
논문에 구체적인 한계점 언급 없음. (Abstract에서 구체적인 한계점은 제시되지 않음.)
👍