Multilingual Safety Alignment via Self-Distillation

작성자

Haebom

카테고리

Empty

저자

Ruiyang Qin, Qingzhuo Wang, Dongrui Liu, Qiang Li, Zhihua Wei, Wen Shen

💡 개요

본 논문은 대규모 언어 모델(LLM)이 고자원 언어에서는 안전하지만 저자원 언어에서는 취약한 다국어 안전성 불일치 문제를 해결합니다. 이를 위해 제안된 다국어 자체 증류(MSD) 프레임워크는 고자원 언어의 안전 기능을 저자원 언어로 전이하여, 각 언어별 응답 데이터 생성 없이도 안전성을 강화합니다. 또한, 교사와 학생 모델의 관점을 모두 고려하여 안전 관련 토큰에 가중치를 부여하는 DPSW 기법을 통해 효과적인 교차 언어 안전 전이를 달성합니다.

🔑 시사점 및 한계

•

저자원 언어에서의 LLM 안전성을 개선하기 위한 효과적인 교차 언어 전이 방법론을 제시합니다.

•

응답 데이터 생성이 어려운 경우에도 LLM의 안전성을 향상시킬 수 있는 실용적인 접근 방식을 제공합니다.

•

제안된 방법은 다양한 LLM과 데이터셋에 대해 우수한 성능을 보이며, 새로운 언어에 대한 일반화 능력도 입증했습니다.

•

모델의 일반적인 능력(general capabilities)을 유지하면서 안전성을 높이는 것이 향후 과제입니다.

PDF 보기

Made with Slashpage