본 논문은 기업 환경(예: Microsoft 365 Copilot)에 배포된 대규모 언어 모델(LLM)이 직면하는 새로운 보안 위협, 특히 다단계 프롬프트 추론 공격에 대한 포괄적인 연구를 제시한다. 공격자는 악의적인 의도를 드러내지 않는 질문과 간접적인 프롬프트 주입을 사용하여 기업의 민감한 데이터(예: SharePoint 문서 또는 이메일)에 통합된 LLM을 악용하는 현실적인 공격 시나리오를 시뮬레이션한다. 확률 이론, 최적화 프레임워크 및 정보 이론적 누출 경계를 사용하여 다회차 추론 공격에 대한 공식적인 위협 모델을 개발하고 분석한다. 표준 안전 조치가 시행되어도 공격이 LLM의 컨텍스트에서 민감한 정보를 안정적으로 유출하는 것을 보여준다. 본 논문에서는 통계적 이상 탐지, 세분화된 접근 제어, 프롬프트 위생 기술 및 LLM 배포에 대한 아키텍처 수정을 포함한 방어 기법을 제안하고 평가한다. 각 방어는 수학적 분석 또는 실험적 시뮬레이션에 의해 뒷받침된다. 예를 들어, 차등 개인 정보 보호 기반 훈련에서 정보 누출에 대한 경계를 도출하고 다회차 공격을 높은 AUC로 플래그하는 이상 탐지 방법을 보여준다. 또한 신뢰할 수 없는 프롬프트 콘텐츠를 격리하고 공격 성공률을 10배 감소시키는 입력 변환을 사용하는 "스포트라이팅"이라는 접근 방식을 소개한다. 마지막으로, 결합된 심층 방어 전략에 대한 공식적인 개념 증명과 경험적 검증을 제공한다. 본 연구는 기업 환경에서 LLM을 보호하려면 단일 회차 프롬프트 필터링을 넘어 공격과 방어 모두에 대한 전체적인 다단계 관점으로 이동해야 함을 강조한다.