Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Towards Understanding the Safety Boundaries of DeepSeek Models: Evaluation and Findings

Created by
  • Haebom
Category
Empty

저자

Zonghao Ying, Guangyi Zheng, Yongxin Huang, Deyue Zhang, Wenxin Zhang, Quanchen Zou, Aishan Liu, Xianglong Liu, Dacheng Tao

개요

본 연구는 DeepSeek 모델의 안전성에 대한 최초의 종합적인 평가를 제시하며, 생성된 콘텐츠와 관련된 안전 위험을 평가하는 데 중점을 둡니다. 대규모 언어 모델, 다중 모달 대규모 언어 모델 및 텍스트-이미지 모델을 포함한 DeepSeek의 최신 세대 모델을 평가하고, 안전하지 않은 콘텐츠 생성에 대한 성능을 체계적으로 검토합니다. 특히, 중국 사회문화적 맥락에 맞춘 이중 언어(중국어-영어) 안전 평가 데이터 세트를 개발하여 중국에서 개발된 모델의 안전 기능을 더욱 철저하게 평가했습니다. 실험 결과는 강력한 일반적인 기능에도 불구하고 DeepSeek 모델이 알고리즘적 차별 및 성적 콘텐츠를 포함한 여러 위험 차원에서 상당한 안전 취약성을 보임을 나타냅니다. 이러한 결과는 대규모 기초 모델의 안전성을 이해하고 개선하는 데 중요한 통찰력을 제공합니다. 코드는 https://github.com/NY1024/DeepSeek-Safety-Eval 에서 확인할 수 있습니다.

시사점, 한계점

시사점:
중국어권 사회문화적 맥락을 고려한 이중 언어(중국어-영어) 안전 평가 데이터셋을 최초로 개발하여 중국산 모델의 안전성 평가에 기여.
DeepSeek 모델의 안전 취약성(알고리즘적 차별, 성적 콘텐츠 생성 등)을 밝혀냄으로써 향후 모델 개발 및 안전 개선 방향 제시.
대규모 기초 모델의 안전성 향상을 위한 중요한 통찰력 제공.
한계점:
본 연구에서 사용된 데이터셋의 범위 및 대표성에 대한 추가적인 검토 필요.
DeepSeek 모델 외 다른 모델에 대한 일반화 가능성 제한.
안전성 평가 지표 및 방법론의 개선 필요.
👍