Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Say It Differently: Linguistic Styles as Jailbreak Vectors

Created by
  • Haebom
Category
Empty

저자

Srikant Panda, Avinash Rai

개요

대규모 언어 모델(LLM)은 의미적으로 동등한 프롬프트에 대한 견고성 평가를 받지만, 언어적 변동성은 공격 표면으로 간과되어 왔다. 본 연구에서는 공포나 호기심과 같은 언어 스타일이 해로운 의도를 어떻게 재구성하고 안전하지 않은 응답을 유도하는지 체계적으로 연구한다. 3개의 표준 데이터 세트에서 프롬프트를 수작업 템플릿과 LLM 기반 재작성을 사용하여 11가지 언어 스타일로 변환하여 스타일이 강화된 jailbreak 벤치마크를 구축하고 의미적 의도를 유지한다. 16개의 오픈 소스 및 클로즈 소스 instruction-tuned 모델을 평가한 결과, 스타일 재구성이 jailbreak 성공률을 최대 +57% 포인트 증가시키는 것을 발견했다. 두려움, 호기심, 연민과 같은 스타일이 가장 효과적이었으며, 맥락화된 재작성이 템플릿 변형보다 우수했다. 이 문제를 완화하기 위해 사용자의 조작적인 스타일 신호를 제거하는 2차 LLM을 사용하여 스타일 중립화 전처리 단계를 도입하여 jailbreak 성공률을 크게 감소시켰다. 본 연구 결과는 현재 안전 파이프라인에서 간과된, 시스템적이고 확장 저항적인 취약점을 보여준다.

시사점, 한계점

시사점:
언어 스타일 변동성이 LLM의 안전성에 심각한 위협이 될 수 있음을 보여줌.
두려움, 호기심, 연민과 같은 특정 언어 스타일이 jailbreak 공격에 효과적임.
스타일 중립화 전처리가 jailbreak 성공률을 감소시키는 효과적인 방어 방법이 될 수 있음.
한계점:
연구에 사용된 언어 스타일과 모델의 범위가 제한적일 수 있음.
스타일 중립화 방법의 효과가 모든 상황에서 동일하게 나타나지 않을 수 있음.
악의적인 공격자가 더 정교한 언어 스타일을 개발할 가능성이 있음.
👍