본 논문은 다국어 환경에서의 대규모 언어 모델(LLM) 안전성 강화에 초점을 맞추고 있습니다. 기존 안전 시스템의 취약점, 특히 저자원 언어 및 코드 전환 공격에 대한 취약성을 지적하며, 이를 해결하기 위해 투명한 다국어 안전 에이전트인 X-Guard를 제안합니다. X-Guard는 다양한 언어의 안전하지 않은 콘텐츠를 효과적으로 탐지하고, 132개 언어, 5백만 개 데이터 포인트로 구성된 광범위한 다국어 안전 데이터셋을 사용하며, mBART-50 번역 모듈과 X-Guard 3B 모델의 2단계 아키텍처를 통해 작동합니다. 개방형 안전 데이터셋을 개선하고, 심사위원단 방식을 통해 편향을 완화하며, 감독 학습과 GRPO 학습을 통해 모델을 훈련시킨 것이 특징입니다. 실험 결과, X-Guard는 다양한 언어에서 안전하지 않은 콘텐츠 탐지의 효과성과 투명성을 입증했습니다.