Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Prompt Fencing: A Cryptographic Approach to Establishing Security Boundaries in Large Language Model Prompts

Created by
  • Haebom
Category
Empty

저자

Steven Peh

개요

본 논문은 대규모 언어 모델(LLM)이 프롬프트 주입 공격에 취약하다는 점을 해결하기 위해, 암호화 인증 및 데이터 아키텍처 원리를 적용한 새로운 아키텍처적 접근 방식인 Prompt Fencing을 제안합니다. 이 방식은 프롬프트 세그먼트에 신뢰 등급 및 콘텐츠 유형과 같은 암호화 서명된 메타데이터를 추가하여 LLM이 신뢰할 수 있는 지침과 신뢰할 수 없는 콘텐츠를 구별하도록 합니다. 실험 결과, 프롬프트 지침을 통해 시뮬레이션된 인식 기능을 갖춘 Prompt Fencing은 주입 공격을 완전히 차단하여 공격 성공률을 86.7%에서 0%로 감소시켰습니다. 또한, 100개의 샘플에 대해 총 0.224초의 오버헤드(펜스 생성 0.130초, 검증 0.094초)를 갖는 Proof-of-Concept 파이프라인을 구현했습니다. 본 연구는 플랫폼에 독립적이며 기존 LLM 인프라 위에 보안 계층으로 점진적으로 배포될 수 있으며, 향후 모델이 최적의 보안을 위해 기본 펜스 인식 기능을 갖도록 훈련될 것으로 기대합니다.

시사점, 한계점

시사점:
LLM 프롬프트 주입 공격에 대한 효과적인 방어 메커니즘 제시.
암호화 기술과 데이터 아키텍처를 활용하여 LLM 보안 강화.
주입 공격 성공률을 획기적으로 감소시키는 실험 결과 제시.
플랫폼 독립적인 아키텍처로 점진적 배포 가능.
향후 모델에 펜스 인식 기능 통합 가능성 제시.
한계점:
현재 LLM은 기본적으로 펜스 인식을 지원하지 않음 (시뮬레이션 필요).
Proof-of-Concept 구현으로 실제 환경에서의 성능 검증 필요.
추가적인 오버헤드 발생 (0.224초).
향후 모델의 펜스 인식 기능 구현 및 최적화 필요.
👍