Sign In

Prompt Injection as an Emerging Threat: Evaluating the Resilience of Large Language Models

Created by
  • Haebom
Category
Empty

저자

Daniyal Ganiuly, Assel Smaiyl

개요

본 연구는 대규모 언어 모델(LLM)의 프롬프트 주입 공격에 대한 저항성을 평가하기 위한 통일된 프레임워크를 제안합니다. 이 프레임워크는 회복력 저하 지수(RDI), 안전 준수 계수(SCC), 지침 무결성 지표(IIM)의 세 가지 보완적 지표를 사용하여 견고성, 안전성, 의미론적 안정성을 측정합니다. GPT-4, GPT-4o, LLaMA-3 8B Instruct, Flan-T5-Large의 4가지 모델을 질문 응답, 요약, 번역, 추론, 코드 생성 등 5가지 언어 작업에 대해 평가했습니다.

시사점, 한계점

시사점:
GPT-4가 전반적으로 가장 뛰어난 성능을 보였습니다.
강력한 정렬 및 안전 튜닝이 모델 크기보다 저항성에 더 중요합니다.
제안된 프레임워크는 모델 견고성을 평가하기 위한 구조화되고 재현 가능한 접근 방식을 제공합니다.
모델 안전성 및 신뢰성을 향상시키는 데 실질적인 통찰력을 제공합니다.
한계점:
모든 모델이 간접 및 직접 재정의 공격에 부분적으로 취약했습니다.
오픈 소스 모델은 성능 저하가 더 크고 안전 점수가 낮았습니다.
👍