Safety Evaluation and Enhancement of DeepSeek Models in Chinese Contexts
Created by
Haebom
Category
Empty
저자
Wenjing Zhang, Xuejiao Lei, Zhaoxiang Liu, Limin Han, Jiaojiao Zhao, Beibei Huang, Zhenhong Long, Junting Guo, Meijuan An, Rongjia Du, Ning Wang, Kai Wang, Shiguo Lian
개요
DeepSeek-R1은 뛰어난 추론 능력과 오픈소스 전략으로 인공지능 분야에 큰 영향을 미치고 있으나, 심각한 안전상의 결함을 가지고 있습니다. Cisco 자회사인 Robust Intelligence와 University of Pennsylvania의 공동 연구에 따르면 DeepSeek-R1은 유해한 프롬프트 처리 시 100% 공격 성공률을 보였고, 여러 보안업체와 연구기관에서 심각한 보안 취약점을 발견했습니다. 본 연구는 중국어 안전 벤치마크 CHiSafetyBench를 사용하여 DeepSeek-R1 시리즈의 증류 모델들을 심층적으로 평가하여 중국어 환경에서의 안전 성능을 증류 전후로 비교하고, 증류 과정이 모델 안전성에 미치는 부정적 영향을 분석합니다. 이를 바탕으로 6개의 증류 모델에 대한 안전 강화를 구현하고, 안전성 향상과 추론 능력 저하 방지 효과를 검증했습니다. 안전이 강화된 모델들을 오픈소스로 공개하여 DeepSeek 모델의 향후 연구 및 최적화에 기여하고자 합니다.
시사점, 한계점
•
시사점: DeepSeek-R1 시리즈 증류 모델의 중국어 환경에서의 안전성 평가 및 개선 방안 제시, 증류 과정이 모델 안전성에 미치는 영향 분석, 안전 강화 모델의 오픈소스 공개를 통한 연구 및 개발 지원.
•
한계점: 본 연구는 CHiSafetyBench라는 특정 중국어 안전 벤치마크에 국한된 평가 결과를 제시하므로, 다른 언어 및 벤치마크에 대한 추가 연구가 필요합니다. 또한, 안전 강화 기법의 일반화 가능성 및 다른 모델에 대한 적용 가능성에 대한 추가 연구가 필요합니다. DeepSeek-R1 시리즈의 모든 증류 모델이 아닌 일부 모델만 평가되었다는 점도 한계점으로 볼 수 있습니다.