본 논문은 대규모 언어 모델(LLM)의 안전한 배포를 저해하는 적대적 프롬프트 문제를 해결하기 위해 새로운 방어 프레임워크인 CurvaLID를 제시합니다. CurvaLID는 기존의 방어 전략과 달리, 적대적 프롬프트와 일반 프롬프트 간의 기하학적 특성 차이를 활용하여 적대적 프롬프트를 효율적으로 탐지합니다. 텍스트 프롬프트의 기하학적 분석을 기반으로, Whewell 방정식을 이용한 곡률 개념을 n차원 단어 임베딩 공간으로 확장하여 의미 변화 및 기저 다양체의 곡률과 같은 국소 기하학적 특성을 정량화합니다. 또한, 국소 내재 차원(LID)을 사용하여 적대적 하위 공간 내에서 텍스트 프롬프트의 기하학적 특징을 포착합니다. 실험 결과, CurvaLID는 적대적 질의의 탐지 및 거부에 우수한 성능을 보이며, 더 안전한 LLM 배포를 위한 길을 열어줍니다. 소스 코드는 GitHub에서 공개됩니다.