Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Can AI Keep a Secret? Contextual Integrity Verification: A Provable Security Architecture for LLMs

Created by
  • Haebom

저자

Aayush Gupta

개요

본 논문은 프롬프트 주입 및 관련된 제일브레이크 공격에 취약한 대규모 언어 모델(LLM)의 문제점을 해결하기 위해 맥락적 무결성 검증(CIV)이라는 새로운 보안 아키텍처를 제시합니다. CIV는 각 토큰에 암호화 서명된 출처 레이블을 붙이고, 전-소프트맥스 하드 어텐션 마스크를 통해 트랜스포머 내부에 출처 신뢰도 위계를 적용하여 작동합니다. 이는 동결된 모델에서 토큰 간의 결정적 비간섭성을 보장하며, 신뢰도가 낮은 토큰이 신뢰도가 높은 표현에 영향을 미치지 못하게 합니다. 실험 결과, 최신 프롬프트 주입 공격 벡터를 기반으로 한 벤치마크에서 CIV는 공격 성공률 0%를 달성하면서, 토큰 유사도 93.1%를 유지하고 정상적인 작업에서는 모델 perplexity 저하를 보이지 않았습니다. Llama-3-8B와 Mistral-7B에 대한 적용 결과도 제시하며, 참조 구현, 자동 인증 도구, 그리고 Elite-Attack 코퍼스를 공개하여 재현 가능한 연구를 지원합니다.

시사점, 한계점

시사점:
프롬프트 주입 공격에 대한 효과적인 방어 메커니즘을 제시합니다.
기존 모델에 대한 경량 패치 방식으로 적용 가능합니다. (Fine-tuning 불필요)
결정적이고 토큰 단위의 비간섭성 보장을 제공합니다.
높은 보안성을 유지하면서 성능 저하를 최소화합니다.
재현 가능한 연구를 위한 자료들을 공개합니다.
한계점:
최적화되지 않은 데이터 경로로 인한 latency overhead 존재.
제시된 threat model 내에서만 성능이 보장됨.
실제 다양한 환경에서의 성능 검증이 추가적으로 필요함.
👍