본 논문은 의료 및 금융과 같은 중요한 산업 시스템에 점점 더 많이 통합되고 있는 대규모 언어 모델(LLM)의 보안 위협에 초점을 맞춥니다. 사용자가 민감한 데이터를 저장하는 내부 데이터베이스에서 정보를 검색하여 응답을 풍부하게 하는 LLM 기반 챗봇에 악의적인 질문을 제출함으로써 내부 데이터 유출이나 제3자에 대한 피해로 인한 법적 책임 등의 피해를 야기할 수 있는 다양한 공격이 발생할 수 있습니다. 본 연구는 이러한 위협에 대응하기 위해 개발되고 있는 보안 도구의 효과와 사용성에 대한 공식적인 평가가 부족한 점을 해결하기 위해 13개의 LLM 보안 도구(9개 독점 소스, 4개 오픈 소스)를 대상으로 비교 분석을 수행했습니다. 악의적인 프롬프트의 벤치마크 데이터 세트를 구축하여 기준 LLM 모델(ChatGPT-3.5-Turbo)과 비교 평가한 결과, 기준 모델은 허위 긍정이 너무 많아 이 작업에 사용하기에 적합하지 않다는 것을 발견했습니다. Lakera Guard와 ProtectAI LLM Guard가 사용성과 성능 간의 균형을 보여주는 최고의 도구로 나타났습니다.