Sign In

SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal

Created by
  • Haebom
Category
Empty

저자

Tinghao Xie, Xiangyu Qi, Yi Zeng, Yangsibo Huang, Udari Madhushani Sehwag, Kaixuan Huang, Luxi He, Boyi Wei, Dacheng Li, Ying Sheng, Ruoxi Jia, Bo Li, Kai Li, Danqi Chen, Peter Henderson, Prateek Mittal

개요

본 논문은 안전하고 정책을 준수하는 대규모 언어 모델(LLM) 배포를 위해 위험한 사용자 요청을 인식하고 거부하는 LLM의 능력을 평가하는 새로운 벤치마크인 SORRY-Bench를 제안합니다. 기존 평가 방식의 세 가지 한계점, 즉 1) 안전하지 않은 주제에 대한 과립성이 부족하고 불균형적인 데이터셋, 2) 프롬프트의 언어적 특징과 형식에 대한 고려 부족, 3) 계산 비용이 높은 대규모 LLM을 사용한 평가 등을 해결하기 위해 SORRY-Bench는 44개의 세분화된 위험 주제와 440개의 클래스 균형을 이룬 안전하지 않은 지시어를 포함하고, 20가지 다양한 언어적 증강을 추가하며, 7B 크기의 미세 조정된 LLM을 이용한 효율적인 자동 안전 평가기를 제안합니다. 7,000개 이상의 인간 주석 데이터를 기반으로 50개 이상의 독점 및 공개 LLM을 평가하여 각 모델의 안전 거부 행동을 분석합니다. 벤치마크 데모, 데이터, 코드 및 모델은 https://sorry-bench.github.io 에서 이용 가능합니다.

시사점, 한계점

시사점:
세분화되고 균형 잡힌 데이터셋을 사용하여 LLM의 안전 거부 능력을 더욱 정확하게 평가할 수 있는 벤치마크를 제공합니다.
다양한 언어적 특징을 고려하여 LLM의 안전성 평가의 범위를 확장합니다.
계산 비용이 낮은 효율적인 자동 안전 평가 방법을 제시합니다.
다양한 LLM의 안전 거부 행동을 분석하여 각 모델의 강점과 약점을 파악하는 데 기여합니다.
한계점:
본 연구에서 사용된 7B LLM의 정확도가 GPT-4 수준과 비슷하다고 주장하지만, GPT-4와의 직접적인 비교 결과가 제시되지 않았습니다. 성능 차이에 대한 더 자세한 분석이 필요할 수 있습니다.
사용된 44개의 세분화된 위험 주제 및 440개의 지시어가 모든 유형의 위험한 요청을 완벽히 포괄하는지는 추가 연구가 필요합니다.
20가지 언어적 증강 외에도 고려해야 할 다른 언어적 요소가 존재할 수 있습니다. 평가의 포괄성을 높이기 위한 추가적인 연구가 필요합니다.
👍