Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

LinguaSafe: A Comprehensive Multilingual Safety Benchmark for Large Language Models

Created by
  • Haebom

저자

Zhiyuan Ning, Tianle Gu, Jiaxin Song, Shixin Hong, Lingyu Li, Huacan Liu, Jie Li, Yixu Wang, Meng Lingyu, Yan Teng, Yingchun Wang

개요

본 논문은 다양한 언어 및 문화적 맥락에서 대규모 언어 모델(LLM)의 안전성을 보장하는 데 중점을 두고 있습니다. 기존의 다국어 LLM 안전성 평가의 포괄적인 평가 및 다양한 데이터 부족을 해결하기 위해, 헝가리어부터 말레이어까지 12개 언어로 구성된 45,000개 항목의 다국어 안전성 벤치마크인 LinguaSafe를 제시합니다. 번역, 변형 번역 및 원어 데이터를 결합하여 제작된 LinguaSafe는 직접적 및 간접적 안전성 평가를 포함한 다차원적이고 세분화된 평가 프레임워크를 제공하며, 과민 반응에 대한 추가 평가도 포함합니다. 다양한 언어 및 도메인에서 안전성 및 유용성 평가 결과가 크게 다르다는 것을 보여주며, 다국어 LLM 안전성 평가의 중요성을 강조합니다. 데이터셋과 코드는 공개적으로 배포되어 추가 연구를 지원합니다.

시사점, 한계점

시사점:
다국어 LLM의 안전성 평가를 위한 포괄적인 벤치마크인 LinguaSafe를 제공합니다.
다양한 언어(헝가리어부터 말레이어까지)를 포함하여 기존의 언어적 편향을 해소합니다.
직접적 및 간접적 안전성 평가를 포함한 다차원적 평가 프레임워크를 제공합니다.
다국어 LLM의 안전성 평가 결과가 언어 및 도메인에 따라 크게 다름을 보여줍니다.
공개된 데이터셋과 코드는 향후 다국어 LLM 안전성 연구를 위한 기반을 마련합니다.
한계점:
LinguaSafe 데이터셋의 크기와 언어의 범위가 더욱 확장될 수 있습니다.
평가 프레임워크의 객관성과 신뢰성에 대한 추가적인 검증이 필요할 수 있습니다.
특정 언어나 문화적 맥락에 대한 편향이 여전히 존재할 가능성이 있습니다.
새로운 LLM 아키텍처 및 기능에 대한 적응성이 추가적으로 연구될 필요가 있습니다.
👍