본 논문은 대규모 언어 모델(LLM)의 취약점 중 하나인, 악의적인 질의를 희귀하거나 과소표현된 언어로 번역하여 LLM의 안전장치를 우회하는 "탈옥(jailbreaking)" 기법에 대한 연구입니다. 기존 연구의 부족을 지적하며, 다국어 환경에서의 LLM 안전 강화의 필요성을 강조합니다. 연구진은 다양한 언어에서의 공격 특징 간 상관관계를 조사하고, 다국어 협력 방어(MCD)라는 새로운 학습 방법을 제안합니다. MCD는 연속적인 소프트 안전 프롬프트를 자동으로 최적화하여 다국어 LLM 안전을 강화합니다. 기존 방법보다 다국어 탈옥 시도 방지에 효과적이며, 언어 전이 성능이 뛰어나고, 오거부율을 최소화하며, LLM 훈련 말뭉치의 불균형으로 인한 언어 안전 불일치를 완화합니다. MaliciousInstruct 및 AdvBench와 같은 벤치마크의 다국어 버전을 수동으로 구성하고, 과소표현된 언어(제로샷)에 대한 평가를 통해 MCD의 성능을 검증합니다. 소스 코드는 공개되어 있습니다.