Safety Evaluation of DeepSeek Models in Chinese Contexts
Created by
Haebom
저자
Wenjing Zhang, Xuejiao Lei, Zhaoxiang Liu, Ning Wang, Zhenhong Long, Peijun Yang, Jiaojiao Zhao, Minjie Hua, Chaoyang Ma, Kai Wang, Shiguo Lian
개요
본 논문은 DeepSeek 시리즈 모델의 안전성 문제, 특히 중국어 환경에서의 안전성 평가 부재를 해결하기 위해 중국어 특화 안전성 평가 벤치마크인 CHiSafetyBench를 제시합니다. DeepSeek-R1과 DeepSeek-V3 모델을 대상으로 중국어 환경에서의 안전성을 체계적으로 평가하여 그 성능을 여러 안전성 범주에 걸쳐 측정하고, 결과적으로 두 모델의 중국어 환경에서의 안전성 결함을 정량적으로 제시합니다. 하지만, 샘플 선택, 데이터 분포 특성, 평가 기준 설정 등으로 인한 편향 가능성을 인지하고, 벤치마크를 지속적으로 개선하고 정기적으로 보고서를 업데이트할 계획임을 밝힙니다.
시사점, 한계점
•
시사점: 중국어 환경에서의 대규모 언어 모델 안전성 평가의 중요성을 강조하고, CHiSafetyBench는 이러한 평가를 위한 유용한 벤치마크를 제공합니다. DeepSeek 모델의 중국어 환경에서의 안전성 취약점을 구체적으로 제시하여 향후 모델 개선에 중요한 정보를 제공합니다.
•
한계점: 샘플 선택, 데이터 분포 특성, 평가 기준 설정 등의 편향 가능성이 존재합니다. 평가 결과는 지속적인 벤치마크 최적화 및 업데이트를 통해 개선될 필요가 있습니다. 현재로서는 DeepSeek-R1과 DeepSeek-V3 모델만 평가 대상이며, 다른 모델이나 다른 언어에 대한 평가는 제한적입니다.