Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Prompt, Divide, and Conquer: Bypassing Large Language Model Safety Filters via Segmented and Distributed Prompt Processing

Created by
  • Haebom
Category
Empty

저자

Johan Wahreus, Ahmed Hussain, Panos Papadimitratos

개요

대규모 언어 모델(LLM)의 안전 필터를 우회하여 악성 코드 생성을 포함한 다양한 악용 행위를 가능하게 하는 새로운 탈옥 프레임워크를 제시한다. 이 프레임워크는 분산 프롬프트 처리와 반복적인 개선을 통해 안전 조치를 우회하며, 프롬프트 분할, 병렬 처리, 응답 집계, LLM 기반 배심원 평가의 네 가지 모듈로 구성된다. 10가지 사이버 보안 범주에 걸쳐 500개의 악성 프롬프트를 테스트한 결과, 악성 코드 생성 성공률이 73.2%에 달했다. 단일 LLM 판정 방식보다 LLM 배심원 시스템이 더 정확한 평가를 제공하며(단일 판정 93.8% 대 배심원 시스템 73.2%), 분산 아키텍처가 성공률을 12% 향상시킨다는 것을 보여준다.

시사점, 한계점

시사점:
분산 프롬프트 처리 및 LLM 배심원 평가 시스템을 활용한 LLM 탈옥 프레임워크의 효과적인 구현을 제시.
기존의 단일 LLM 평가 방식의 한계를 지적하고, 더욱 정확한 평가를 위한 다중 LLM 평가 시스템의 필요성을 강조.
분산 처리 방식이 LLM 탈옥 성공률 향상에 기여함을 실험적으로 증명.
한계점:
현재 500개의 악성 프롬프트와 10개의 사이버 보안 범주에 대한 제한된 테스트 데이터셋 사용.
다양한 LLM 및 안전 필터에 대한 일반화 가능성에 대한 추가 연구 필요.
실제 세계 시나리오에서의 프레임워크 효과에 대한 추가 검증 필요.
👍