본 논문은 다국어 환경에서의 대규모 언어 모델(LLM) 안전성 향상을 목표로 하는 다국어 보호 장치인 SEALGuard를 제시합니다. 기존의 보호 장치인 LlamaGuard는 영어로 작성된 안전하지 않은 입력에 대해서는 높은 검출 정확도를 보이지만, 다국어 입력에는 취약하다는 한계점을 가지고 있습니다. 이를 해결하기 위해, 본 논문에서는 10개 언어를 포함하는 26만 개 이상의 프롬프트로 구성된 대규모 다국어 안전 정렬 데이터셋인 SEALSBench를 구축하고, 저계급 적응(LoRA)을 사용하여 일반적인 다국어 언어 모델을 다국어 보호 장치로 적응시킨 SEALGuard를 개발했습니다. 실험 결과, SEALGuard는 LlamaGuard보다 다국어 안전하지 않은 프롬프트 및 탈옥 프롬프트 검출 성능이 뛰어나며, DSR, 정밀도, F1 점수 모두에서 최고의 성능을 보였습니다. 또한, ablation study를 통해 적응 전략과 모델 크기가 SEALGuard의 성능에 미치는 영향을 분석했습니다. 마지막으로, 사전 훈련된 모델과 벤치마크를 공개하여 추가 연구를 지원합니다.