Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

LinguaSafe: A Comprehensive Multilingual Safety Benchmark for Large Language Models

작성자
  • Haebom

저자

Zhiyuan Ning, Tianle Gu, Jiaxin Song, Shixin Hong, Lingyu Li, Huacan Liu, Jie Li, Yixu Wang, Meng Lingyu, Yan Teng, Yingchun Wang

개요

본 논문은 전 세계 기술에서 대규모 언어 모델(LLM)의 광범위한 채택과 증가하는 중요성을 고려하여 다양한 언어 및 문화적 맥락에서의 안전성을 보장하는 데 중점을 두어야 할 필요성을 강조합니다. 기존의 다국어 LLM 안전성 평가의 포괄적인 평가 및 다양한 데이터 부족은 그 효과를 제한하여 강력한 다국어 안전 정렬 개발을 저해합니다. 이러한 중요한 간극을 해결하기 위해, 본 논문은 언어적 진정성에 세심한 주의를 기울여 제작된 포괄적인 다국어 안전 벤치마크인 LinguaSafe를 소개합니다. LinguaSafe 데이터셋은 헝가리어에서 말레이어에 이르기까지 12개 언어로 45,000개의 항목으로 구성됩니다. 번역, 변환 및 원어 데이터의 조합을 사용하여 큐레이션된 본 데이터셋은 헝가리어에서 말레이어에 이르는 다양한 저대표 언어에 걸쳐 LLM의 안전성 평가에서 공백을 채우는 LLM의 다국어 안전성 평가에 대한 중요한 요구를 해결합니다. LinguaSafe는 과민 반응에 대한 추가 평가를 포함하여 직접 및 간접 안전성 평가를 포함하는 다차원적이고 세분화된 평가 프레임워크를 제공합니다. 안전성 및 유용성 평가 결과는 유사한 자원 수준을 가진 언어에서도 서로 다른 도메인과 서로 다른 언어에 따라 크게 달라집니다. 본 벤치마크는 심층적인 안전성 평가를 위한 포괄적인 지표 세트를 제공하여 보다 균형 잡힌 안전성 정렬을 달성하기 위해 LLM의 다국어 안전성을 철저히 평가하는 것이 중요함을 강조합니다. 본 데이터셋과 코드는 공개적으로 배포되어 다국어 LLM 안전성 분야의 추가 연구를 촉진합니다.

시사점, 한계점

시사점:
다국어 LLM의 안전성 평가를 위한 포괄적이고 다양한 데이터셋(LinguaSafe) 제공.
다양한 언어와 도메인에 걸친 LLM 안전성 평가의 중요성 강조.
LLM의 안전성 평가에 대한 새로운 벤치마크 및 평가 프레임워크 제시.
다국어 LLM 안전성 연구를 위한 공개 데이터셋 및 코드 제공.
한계점:
데이터셋의 규모가 아직 더 큰 규모의 데이터셋에 비해 제한적일 수 있음.
평가 프레임워크의 객관성 및 일반화 가능성에 대한 추가 검증 필요.
특정 언어 또는 문화권에 대한 편향 가능성 존재.
새로운 안전 문제 및 위험이 등장함에 따라 지속적인 업데이트 및 개선 필요.
👍