LinguaSafe: A Comprehensive Multilingual Safety Benchmark for Large Language Models
작성자
Haebom
저자
Zhiyuan Ning, Tianle Gu, Jiaxin Song, Shixin Hong, Lingyu Li, Huacan Liu, Jie Li, Yixu Wang, Meng Lingyu, Yan Teng, Yingchun Wang
개요
본 논문은 전 세계 기술에서 대규모 언어 모델(LLM)의 광범위한 채택과 증가하는 중요성을 고려하여 다양한 언어 및 문화적 맥락에서의 안전성을 보장하는 데 중점을 두어야 할 필요성을 강조합니다. 기존의 다국어 LLM 안전성 평가의 포괄적인 평가 및 다양한 데이터 부족은 그 효과를 제한하여 강력한 다국어 안전 정렬 개발을 저해합니다. 이러한 중요한 간극을 해결하기 위해, 본 논문은 언어적 진정성에 세심한 주의를 기울여 제작된 포괄적인 다국어 안전 벤치마크인 LinguaSafe를 소개합니다. LinguaSafe 데이터셋은 헝가리어에서 말레이어에 이르기까지 12개 언어로 45,000개의 항목으로 구성됩니다. 번역, 변환 및 원어 데이터의 조합을 사용하여 큐레이션된 본 데이터셋은 헝가리어에서 말레이어에 이르는 다양한 저대표 언어에 걸쳐 LLM의 안전성 평가에서 공백을 채우는 LLM의 다국어 안전성 평가에 대한 중요한 요구를 해결합니다. LinguaSafe는 과민 반응에 대한 추가 평가를 포함하여 직접 및 간접 안전성 평가를 포함하는 다차원적이고 세분화된 평가 프레임워크를 제공합니다. 안전성 및 유용성 평가 결과는 유사한 자원 수준을 가진 언어에서도 서로 다른 도메인과 서로 다른 언어에 따라 크게 달라집니다. 본 벤치마크는 심층적인 안전성 평가를 위한 포괄적인 지표 세트를 제공하여 보다 균형 잡힌 안전성 정렬을 달성하기 위해 LLM의 다국어 안전성을 철저히 평가하는 것이 중요함을 강조합니다. 본 데이터셋과 코드는 공개적으로 배포되어 다국어 LLM 안전성 분야의 추가 연구를 촉진합니다.
시사점, 한계점
•
시사점:
◦
다국어 LLM의 안전성 평가를 위한 포괄적이고 다양한 데이터셋(LinguaSafe) 제공.