Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

JBFuzz: Jailbreaking LLMs Efficiently and Effectively Using Fuzzing

Created by
  • Haebom
Category
Empty

저자

Vasudev Gohil

개요

본 논문은 대규모 언어 모델(LLM)의 안전성 문제, 특히 '탈옥(jailbreaking)' 공격에 대한 취약성을 해결하기 위해 새로운 자동화된 적대적 테스트 기법인 JBFuzz를 제안합니다. JBFuzz는 소프트웨어 버그 탐지에 사용되는 퍼징(fuzzing) 기법에서 영감을 얻어, 효과적이고 확장 가능한 탈옥 공격을 자동으로 생성합니다. 새로운 시드 프롬프트, 경량 돌연변이 엔진, 그리고 경량이면서 정확한 평가기를 설계하여 효과성과 확장성 문제를 해결했습니다. 실험 결과, JBFuzz는 9개의 널리 사용되는 LLM을 대상으로 다양한 유해/비윤리적 질문에 대해 평균 99%의 성공률로 탈옥에 성공했으며, 평균 60초 이내에 탈옥을 달성하는 높은 효율성을 보였습니다. 이는 최첨단 LLM이 안전성 조정 후에도 탈옥 공격에 취약함을 보여주는 결과입니다.

시사점, 한계점

시사점:
LLM의 안전성에 대한 심각한 취약성을 효과적으로 드러냄.
기존의 수동적인 적대적 테스트 방식의 한계를 극복하는 자동화된 탈옥 공격 도구를 제시.
LLM 개발자에게 효과적인 적대적 테스트 방법을 제공하여 안전성 향상에 기여.
LLM의 안전성 평가 및 향상을 위한 새로운 연구 방향 제시.
한계점:
JBFuzz의 효과성은 사용된 9개의 LLM에 국한될 수 있음. 다른 LLM에 대한 일반화 가능성에 대한 추가 연구 필요.
탈옥 공격의 다양성에 대한 추가적인 연구가 필요하며, JBFuzz가 모든 유형의 탈옥 공격을 탐지할 수 있는지에 대한 검증이 필요함.
JBFuzz가 생성하는 탈옥 프롬프트의 윤리적 함의에 대한 고려가 필요함.
👍