본 논문은 대규모 언어 모델(LLM)과 생성형 AI의 안전한 사용을 위한 보호장치(guardrails)의 효과와 설계 개선 방안을 연구합니다. 다양한 보호장치(Azure Content Safety, Bedrock Guardrails, OpenAI's Moderation API 등)와 LLM(GPT-4o, Gemini 2.0-Flash, Claude 3.5-Sonnet, Mistral Large-Latest)을 대상으로, 보호장치의 강도에 따른 보안, 사용성, 위험 간의 상충관계를 평가하는 프레임워크를 제시하고, 실험을 통해 보안 강화가 사용성 저하를 초래함을 확인합니다. 나아가, 사용성을 유지하면서 위험을 최소화하는 개선된 보호장치 설계 청사진을 제안합니다.