Sign In

CURVALID: Geometrically-guided Adversarial Prompt Detection

Created by
  • Haebom
Category
Empty

저자

Canaan Yung, Hanxun Huang, Sarah Monazam Erfani, Christopher Leckie

개요

본 논문은 대규모 언어 모델(LLM)의 안전한 배포를 저해하는 적대적 프롬프트 문제를 해결하기 위해 새로운 방어 프레임워크인 CurvaLID를 제시합니다. CurvaLID는 기존의 방어 전략과 달리, 적대적 프롬프트와 일반 프롬프트 간의 기하학적 특성 차이를 활용하여 적대적 프롬프트를 효율적으로 탐지합니다. 텍스트 프롬프트의 기하학적 분석을 기반으로, Whewell 방정식을 이용한 곡률 개념을 n차원 단어 임베딩 공간으로 확장하여 의미 변화 및 기저 다양체의 곡률과 같은 국소 기하학적 특성을 정량화합니다. 또한, 국소 내재 차원(LID)을 사용하여 적대적 하위 공간 내에서 텍스트 프롬프트의 기하학적 특징을 포착합니다. 실험 결과, CurvaLID는 적대적 질의의 탐지 및 거부에 우수한 성능을 보이며, 더 안전한 LLM 배포를 위한 길을 열어줍니다. 소스 코드는 GitHub에서 공개됩니다.

시사점, 한계점

시사점:
LLM의 적대적 프롬프트 문제에 대한 새로운 기하학적 접근 방식 제시
LLM 아키텍처 및 적대적 프롬프트 유형에 독립적인 통합 탐지 프레임워크 제공
적대적 프롬프트와 일반 프롬프트의 기하학적 특성 차이를 이용한 효율적인 탐지
우수한 적대적 질의 탐지 및 거부 성능을 통해 더 안전한 LLM 배포 가능성 제시
한계점:
CurvaLID의 일반화 성능 및 다양한 LLM과 적대적 공격에 대한 견고성에 대한 추가적인 연구 필요
실제 환경에서의 적용 가능성 및 효율성에 대한 추가적인 검증 필요
Whewell 방정식을 n차원 공간으로 확장하는 과정에서 발생할 수 있는 이론적 한계점에 대한 추가적인 고찰 필요
새로운 유형의 적대적 프롬프트에 대한 적응성 및 탐지 성능 저하 가능성 존재
👍