TurboFuzzLLM: Turbocharging Mutation-based Fuzzing for Effectively Jailbreaking Large Language Models in Practice

작성자

Haebom

카테고리

비어 있음

저자

Aman Goel, Xian Carrie Wu, Zhe Wang, Dmitriy Bespalov, Yanjun Qi

개요

본 논문은 대규모 언어 모델(LLM)의 안전성을 평가하기 위한 새로운 퍼징 기법인 TurboFuzzLLM을 제시합니다. TurboFuzzLLM은 돌연변이 기반 퍼징을 사용하여 악의적인 응답을 유도하는 효과적인 탈옥 템플릿을 자동으로 생성합니다. 기존 템플릿 기반 공격 기법의 한계를 지적하고, 효율성과 기능성을 향상시킨 퍼징 기법을 통해 GPT-4o 및 GPT-4 Turbo를 포함한 주요 LLM에 대해 95% 이상의 공격 성공률을 달성했습니다. 본 기법은 미지의 악의적인 질문에도 일반화 가능성이 높으며, 프롬프트 공격에 대한 모델 방어 개선에도 기여할 수 있습니다.

시사점, 한계점

•

시사점:

◦

효율적인 LLM 탈옥 템플릿 생성을 위한 새로운 퍼징 기법 TurboFuzzLLM 제시

◦

주요 LLM에 대한 높은 공격 성공률 달성 (95% 이상)

◦

미지의 악의적인 질문에 대한 높은 일반화 가능성

◦

LLM의 프롬프트 공격 방어 개선에 기여

•

한계점:

◦

논문에서 구체적인 한계점이 명시적으로 언급되지 않음. 다만, 기존 템플릿 기반 공격 기법의 한계를 극복하기 위한 개선이 필요했던 점을 암시적으로 언급하고 있음. 추가적인 실험 및 분석을 통해 한계점을 보다 명확히 밝힐 필요가 있음.

PDF 보기

Slashpage로 제작됨