Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Geneshift: Impact of different scenario shift on Jailbreaking LLM

Created by
  • Haebom

저자

Tianyi Wu, Zhiwei Xue, Yue Liu, Jiaheng Zhang, Bryan Hooi, See-Kiong Ng

개요

본 논문은 대규모 언어 모델(LLM)의 제한 없는 행동을 유도하는 탈옥 공격에 대해 다룬다. 기존의 사전 기반 평가 방식에서는 높은 공격 성공률을 보였지만, GPT 기반 평가에서는 유해한 요청을 충족하는 상세한 내용을 출력하지 못하는 한계가 있었다. 이를 해결하기 위해, 본 논문에서는 유전 알고리즘을 사용하여 시나리오 전환을 최적화하는 블랙박스 탈옥 공격 기법인 GeneShift를 제안한다. GeneShift는 다양한 시나리오 전환 하에서 악의적인 질문이 최적으로 수행된다는 관찰 결과를 바탕으로, 유전 알고리즘을 통해 시나리오 전환의 하이브리드를 진화시키고 선택한다. 이를 통해 은밀성을 유지하면서 상세하고 실행 가능한 유해한 응답을 유도한다. 실험 결과 GeneShift의 우수성을 보여주며, 직접적인 프롬프트만으로는 실패하는 경우 성공률을 0%에서 60%까지 향상시킨다.

시사점, 한계점

시사점:
유전 알고리즘을 활용한 새로운 블랙박스 탈옥 공격 기법 GeneShift 제안
기존 방식의 한계점인 상세한 유해 응답 출력 문제 개선
탈옥 공격 성공률을 크게 향상시킴 (0% → 60%)
시나리오 전환 최적화를 통한 은밀성 향상
한계점:
GeneShift의 성능은 GPT 기반 평가에 국한될 수 있음. 다른 LLM에 대한 일반화 가능성은 추가 연구가 필요함.
유전 알고리즘의 계산 비용이 높을 수 있음. 실시간 공격에는 적합하지 않을 수 있음.
특정 유형의 유해한 요청에만 효과적일 가능성이 있음. 다양한 유형의 공격에 대한 일반화 성능 검증 필요.
👍