본 논문은 대규모 언어 모델(LLM)의 보안 취약성에 대한 종합적인 분석을 제시합니다. LLM의 안전성 진화 및 결정 요인에 대한 중요한 연구 질문들을 다루며, 최신 공격 기법들을 이용하여 오픈소스 모델(LLaMA, Mistral 등)과 클로즈드소스 시스템(GPT-4 등)을 평가합니다. 특히, 가장 효과적인 탈옥 공격 탐지 기법을 파악하고, LLM의 버전 및 크기가 보안에 미치는 영향을 조사하며, 다양한 방어 전략 통합을 통한 모델 강화 가능성을 탐구합니다. 네 가지 최첨단 공격 기법과 세 가지 새로운 방어 기법의 효과를 평가합니다.