[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Multi-Stage Prompt Inference Attacks on Enterprise LLM Systems

Created by
  • Haebom

저자

Andrii Balashov, Olena Ponomarova, Xiaohua Zhai

개요

본 논문은 기업 환경(예: Microsoft 365 Copilot)에 배포된 대규모 언어 모델(LLM)이 직면하는 새로운 보안 위협, 특히 다단계 프롬프트 추론 공격에 대한 포괄적인 연구를 제시한다. 공격자는 악의적인 의도를 드러내지 않는 질문과 간접적인 프롬프트 주입을 사용하여 기업의 민감한 데이터(예: SharePoint 문서 또는 이메일)에 통합된 LLM을 악용하는 현실적인 공격 시나리오를 시뮬레이션한다. 확률 이론, 최적화 프레임워크 및 정보 이론적 누출 경계를 사용하여 다회차 추론 공격에 대한 공식적인 위협 모델을 개발하고 분석한다. 표준 안전 조치가 시행되어도 공격이 LLM의 컨텍스트에서 민감한 정보를 안정적으로 유출하는 것을 보여준다. 본 논문에서는 통계적 이상 탐지, 세분화된 접근 제어, 프롬프트 위생 기술 및 LLM 배포에 대한 아키텍처 수정을 포함한 방어 기법을 제안하고 평가한다. 각 방어는 수학적 분석 또는 실험적 시뮬레이션에 의해 뒷받침된다. 예를 들어, 차등 개인 정보 보호 기반 훈련에서 정보 누출에 대한 경계를 도출하고 다회차 공격을 높은 AUC로 플래그하는 이상 탐지 방법을 보여준다. 또한 신뢰할 수 없는 프롬프트 콘텐츠를 격리하고 공격 성공률을 10배 감소시키는 입력 변환을 사용하는 "스포트라이팅"이라는 접근 방식을 소개한다. 마지막으로, 결합된 심층 방어 전략에 대한 공식적인 개념 증명과 경험적 검증을 제공한다. 본 연구는 기업 환경에서 LLM을 보호하려면 단일 회차 프롬프트 필터링을 넘어 공격과 방어 모두에 대한 전체적인 다단계 관점으로 이동해야 함을 강조한다.

시사점, 한계점

시사점:
기업 환경에서 LLM의 다단계 프롬프트 추론 공격에 대한 포괄적인 위협 모델 및 분석 제공.
다양한 방어 기법(통계적 이상 탐지, 세분화된 접근 제어, 프롬프트 위생, 아키텍처 수정 등) 제안 및 평가.
차등 개인 정보 보호 기반 훈련 하에서 정보 누출에 대한 경계 도출.
"스포트라이팅"과 같은 새로운 방어 기법을 통한 공격 성공률 감소.
결합된 심층 방어 전략의 효과성 입증.
단일 회차 프롬프트 필터링을 넘어서는 다단계 보안 접근 방식의 중요성 강조.
한계점:
실제 기업 환경이 아닌 시뮬레이션 환경에서의 연구 결과.
제안된 방어 기법의 실제 적용 가능성 및 성능에 대한 추가 연구 필요.
다양한 유형의 LLM과 공격 전략에 대한 일반화 가능성 검토 필요.
방어 기법의 성능 저하에 대한 추가적인 분석 필요.
👍