본 논문은 의료 및 금융과 같은 중요 산업 시스템에 점점 더 많이 통합되고 있는 대규모 언어 모델(LLM)의 보안 위협을 다룹니다. 사용자가 민감한 데이터를 저장하는 내부 데이터베이스에서 정보를 검색하여 응답을 풍부하게 하는 LLM 기반 챗봇에 악성 질의를 제출하여 내부 데이터 유출이나 제3자 피해로 인한 법적 책임 발생 등의 피해를 야기하는 다양한 공격이 가능합니다. 본 연구는 이러한 위협에 대응하기 위해 개발되고 있는 보안 도구들의 효과와 사용성에 대한 공식적인 평가가 부족한 점을 해결하고자 13개의 LLM 보안 도구(9개 독점 소스, 4개 오픈 소스)를 비교 분석했습니다. 7개 도구만 평가되었으며, 악성 프롬프트의 벤치마크 데이터 세트를 구축하여 기준 LLM 모델(ChatGPT-3.5-Turbo)과 비교 평가했습니다. 결과적으로 기준 모델은 허위 긍정이 너무 많아 이 작업에 사용하기에는 적합하지 않은 것으로 나타났으며, Lakera Guard와 ProtectAI LLM Guard가 사용성과 성능 간의 균형을 보여주는 최고의 도구로 나타났습니다. 마지막으로, 독점 소스 제공업체의 투명성 증대, 상황 인식 탐지 개선, 오픈 소스 참여 증진, 사용자 인식 제고 및 더욱 대표적인 성능 지표 채택을 권장했습니다.