Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Prompt Injection as an Emerging Threat: Evaluating the Resilience of Large Language Models

Created by
  • Haebom
Category
Empty

저자

Daniyal Ganiuly, Assel Smaiyl

개요

본 연구는 대규모 언어 모델(LLM)의 프롬프트 주입 공격에 대한 저항성을 평가하기 위한 통일된 프레임워크를 제시합니다. 이 프레임워크는 강건성, 안전성, 의미론적 안정성을 측정하기 위해 Resilience Degradation Index (RDI), Safety Compliance Coefficient (SCC), Instructional Integrity Metric (IIM)의 세 가지 지표를 정의합니다. GPT-4, GPT-4o, LLaMA-3 8B Instruct, Flan-T5-Large 모델을 대상으로 질문 응답, 요약, 번역, 추론, 코드 생성 등 다섯 가지 언어 작업에 대한 평가를 수행했습니다.

시사점, 한계점

시사점:
GPT-4가 전반적으로 가장 높은 저항성을 보였습니다.
강력한 정렬 및 안전 튜닝이 모델 크기보다 저항성에 더 중요한 영향을 미칩니다.
제안된 프레임워크는 모델 강건성을 평가하기 위한 구조화되고 재현 가능한 접근 방식을 제공합니다.
한계점:
모든 모델은 간접 및 직접-재정의 공격에 부분적으로 취약했습니다.
오픈 소스 모델은 더 높은 성능 저하와 낮은 안전성 점수를 보였습니다.
👍