Evaluation of Prompt Injection Defenses in Large Language Models

작성자

Haebom

카테고리

Empty

저자

Priyal Deep, Shane Emmons, Amy Fox, Kyle Bacon, Kelley McAllister, Peter Ortiz, Krisztian Flautner

💡 개요

대규모 언어 모델(LLM) 기반 애플리케이션에서 시스템 프롬프트에 포함된 민감한 정보가 공격자에 의해 노출될 수 있다는 문제를 제기합니다. 본 연구는 수백 라운드에 걸쳐 전략을 발전시키는 적응형 공격자를 개발하여 9가지 방어 설정을 20,000회 이상의 공격으로 테스트했습니다. 모델 자체에 방어 기능을 맡긴 모든 방식은 결국 실패했으며, 외부에서 규칙 기반으로 응답을 검증하는 출력 필터링만이 15,000회 공격 동안 단 한 건의 정보 유출도 없이 성공했습니다.

🔑 시사점 및 한계

•

LLM 자체의 보안 기능에 의존하는 방어는 궁극적으로 취약하며, 외부 애플리케이션 코드에서 보안 경계를 명확히 설정해야 합니다.

•

사용자에게 도달하기 전에 응답을 검증하는 하드코딩된 규칙 기반의 출력 필터링이 현재 가장 효과적인 방어 전략임을 입증했습니다.

•

Swept AI와 같은 도구를 통해 검증되기 전까지는 민감한 정보를 처리하는 AI 시스템은 신뢰할 수 있는 내부 인력으로 접근을 제한해야 합니다.

•

본 연구는 단일 공격자 시뮬레이션과 9가지 방어 설정에 국한되었으므로, 더 다양한 공격 시나리오와 방어 메커니즘에 대한 추가 연구가 필요합니다.

PDF 보기

Made with Slashpage