본 논문은 경량화된 미세조정을 통해 특정 영역에서 대형 언어 모델(LLM)과 비슷한 성능을 보이는 소형 언어 모델(SLM)의 보안 취약성, 특히 탈옥 공격에 대한 최초의 대규모 실증 연구 결과를 제시합니다. 15개 주요 SLM 계열의 63개 SLM을 대상으로 8가지 최첨단 탈옥 공격 방법을 사용하여 체계적인 평가를 수행한 결과, 평가 대상 SLM의 47.6%가 탈옥 공격에 높은 취약성(ASR > 40%)을 보였고, 38.1%는 직접적인 유해 질의에도 저항하지 못하는 것(ASR > 50%)으로 나타났습니다. 본 논문에서는 이러한 취약성의 원인을 모델 크기, 모델 아키텍처, 훈련 데이터셋, 훈련 기법 등 네 가지 주요 요인으로 분석하고, 세 가지 프롬프트 수준 방어 방법의 효과를 평가하여 어떤 방법도 완벽한 성능을 달성하지 못함을 보였습니다. 또한, SLM 보안에서 고유한 보안 인식의 중요성을 강조하며, 강력한 보안 인식을 가진 모델은 위험한 응답을 적절히 중단할 수 있음을 지적합니다. 결론적으로 SLM 개발에서 보안 설계 접근 방식의 시급성을 강조하고, 더욱 신뢰할 수 있는 SLM 생태계 구축을 위한 귀중한 통찰력을 제공합니다.