SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal
Created by
Haebom
Category
Empty
저자
Tinghao Xie, Xiangyu Qi, Yi Zeng, Yangsibo Huang, Udari Madhushani Sehwag, Kaixuan Huang, Luxi He, Boyi Wei, Dacheng Li, Ying Sheng, Ruoxi Jia, Bo Li, Kai Li, Danqi Chen, Peter Henderson, Prateek Mittal
개요
본 논문은 안전하고 정책을 준수하는 대규모 언어 모델(LLM) 배포를 위해 위험한 사용자 요청을 인식하고 거부하는 LLM의 능력을 평가하는 새로운 벤치마크인 SORRY-Bench를 제안합니다. 기존 평가 방식의 세 가지 한계점, 즉 1) 안전하지 않은 주제에 대한 과립성이 부족하고 불균형적인 데이터셋, 2) 프롬프트의 언어적 특징과 형식에 대한 고려 부족, 3) 계산 비용이 높은 대규모 LLM을 사용한 평가 등을 해결하기 위해 SORRY-Bench는 44개의 세분화된 위험 주제와 440개의 클래스 균형을 이룬 안전하지 않은 지시어를 포함하고, 20가지 다양한 언어적 증강을 추가하며, 7B 크기의 미세 조정된 LLM을 이용한 효율적인 자동 안전 평가기를 제안합니다. 7,000개 이상의 인간 주석 데이터를 기반으로 50개 이상의 독점 및 공개 LLM을 평가하여 각 모델의 안전 거부 행동을 분석합니다. 벤치마크 데모, 데이터, 코드 및 모델은 https://sorry-bench.github.io 에서 이용 가능합니다.