Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

TurboFuzzLLM: Turbocharging Mutation-based Fuzzing for Effectively Jailbreaking Large Language Models in Practice

Created by
  • Haebom

저자

Aman Goel, Xian Carrie Wu, Zhe Wang, Dmitriy Bespalov, Yanjun Qi

개요

본 논문은 대규모 언어 모델(LLM)의 탈옥(jailbreaking)을 위한 새로운 퍼징 기법인 TurboFuzzLLM을 제안합니다. TurboFuzzLLM은 돌연변이 기반 퍼징을 활용하여 악의적인 응답을 유도하는 효과적인 탈옥 템플릿을 자동으로 생성합니다. 기존 템플릿 기반 공격 기법의 한계를 지적하고, 효율성과 기능성을 향상시킨 업그레이드를 통해 GPT-4o 및 GPT-4 Turbo를 포함한 주요 LLM에 대해 95% 이상의 공격 성공률을 달성합니다. 본 연구는 새로운 유해 질문에도 일반화 성능이 뛰어나며, 모델의 프롬프트 공격 방어 개선에도 기여합니다. TurboFuzzLLM은 오픈소스로 공개되어 있습니다 (https://github.com/amazon-science/TurboFuzzLLM).

시사점, 한계점

시사점:
효율적인 LLM 탈옥 템플릿을 자동 생성하는 새로운 퍼징 기법(TurboFuzzLLM) 제시.
주요 LLM에 대해 높은 공격 성공률(≥95%) 달성.
새로운 유해 질문에 대한 일반화 성능이 우수함.
LLM의 프롬프트 공격 방어 개선에 기여.
오픈소스로 공개되어 연구 및 개발에 활용 가능.
한계점:
논문에서 구체적인 한계점은 명시적으로 언급되지 않음. 다만, 기존 템플릿 기반 공격 기법의 한계를 극복하기 위한 개선이 필요했던 점을 고려할 때, 향후 더 강력한 방어 기법에 대한 내성을 평가해야 할 필요가 있음.
특정 LLM에 특화된 템플릿이 생성될 가능성을 배제할 수 없음. 다양한 LLM에 대한 일반화 성능 향상에 대한 추가 연구가 필요할 수 있음.
👍