Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Prompt Injection Detection and Mitigation via AI Multi-Agent NLP Frameworks

Created by
  • Haebom
Category
Empty

저자

Diego Gosmar, Deborah A. Dahl, Dario Gosmar

개요

본 논문은 생성형 AI 시스템의 프롬프트 인젝션 취약성을 해결하기 위해 다중 에이전트 NLP 프레임워크를 제시합니다. 이 프레임워크는 응답 생성, 출력 위생화, 정책 준수 강화를 담당하는 전문화된 에이전트들을 조율하여 계층화된 탐지 및 강화 메커니즘을 통해 프롬프트 인젝션 공격을 방어합니다. 500개의 인젝션 프롬프트를 이용한 평가 결과, 인젝션 성공률과 정책 위반율이 크게 감소함을 보였습니다. 또한, 인젝션 성공률(ISR), 정책 무시 빈도(POF), 프롬프트 위생화율(PSR), 준수 일관성 점수(CCS) 등의 새로운 지표를 제안하여 종합적인 총 인젝션 취약성 점수(TIVS)를 도출했습니다. OVON(Open Voice Network) 프레임워크를 사용하여 에이전트 간 구조화된 JSON 메시지를 통해 통신하며, 기존의 환각 완화를 위한 다중 에이전트 아키텍처를 확장하여 프롬프트 인젝션의 고유한 문제에 대처합니다.

시사점, 한계점

시사점:
다중 에이전트 기반의 프롬프트 인젝션 방어 시스템의 효과를 실험적으로 검증.
새로운 지표 (ISR, POF, PSR, CCS, TIVS) 제시를 통한 프롬프트 인젝션 취약성 평가의 정량화.
기존 다중 에이전트 아키텍처를 프롬프트 인젝션 문제 해결에 확장 적용.
한계점:
제시된 프레임워크의 일반화 가능성 및 다양한 생성형 AI 모델에 대한 적용성에 대한 추가 연구 필요.
500개의 엔지니어링된 프롬프트를 사용한 평가는 실제 공격 시나리오의 다양성을 완벽히 반영하지 못할 수 있음.
OVON 프레임워크 의존성으로 인한 시스템 확장성 및 호환성 제약 가능성.
👍