Sign In

SafeDialBench: A Fine-Grained Safety Benchmark for Large Language Models in Multi-Turn Dialogues with Diverse Jailbreak Attacks

Created by
  • Haebom
Category
Empty

저자

Hongye Cao, Yanming Wang, Sijia Jing, Ziyue Peng, Zhixin Bai, Zhe Cao, Meng Fang, Fan Feng, Boyan Wang, Jiaheng Liu, Tianpei Yang, Jing Huo, Yang Gao, Fanyu Meng, Xi Yang, Chao Deng, Junlan Feng

SafeDialBench: LLM 안전성 평가를 위한 정교한 벤치마크

개요

본 논문은 대규모 언어 모델(LLM)의 안전성 평가를 위해 설계된 SafeDialBench 벤치마크를 제시합니다. 현재 벤치마크의 단일 턴 대화 및 단일 탈옥 공격 방식의 한계를 극복하고, LLM의 안전성을 정밀하게 평가하기 위해 개발되었습니다. SafeDialBench는 다중 턴 대화에서 다양한 탈옥 공격에 대한 LLM의 안전성을 평가하며, 6가지 안전성 차원을 고려한 2단계 계층적 안전성 분류 체계를 기반으로 합니다. 또한, 22개의 대화 시나리오에서 중국어 및 영어로 4,000개 이상의 다중 턴 대화를 생성하고, 7가지 탈옥 공격 전략을 활용하여 데이터 세트의 품질을 향상시켰습니다. LLM이 부적절한 정보를 감지하고 처리하는 능력과 탈옥 공격에 직면했을 때 일관성을 유지하는 능력을 측정하는 혁신적인 평가 프레임워크를 구축했습니다. 17개의 LLM에 대한 실험 결과, Yi-34B-Chat 및 GLM4-9B-Chat가 우수한 안전성 성능을 보였고, Llama3.1-8B-Instruct 및 o3-mini는 안전성 취약점을 드러냈습니다.

시사점, 한계점

시사점:
다중 턴 대화 및 다양한 탈옥 공격 방식을 통해 LLM의 안전성을 보다 포괄적으로 평가할 수 있는 벤치마크를 제공합니다.
LLM의 안전성 평가를 위한 새로운 평가 프레임워크를 제시하여, 부적절한 정보 감지, 처리 능력 및 일관성 유지를 측정합니다.
다양한 LLM의 안전성 성능을 비교 분석하여, 안전성 개선을 위한 벤치마크로 활용될 수 있습니다.
한계점:
벤치마크에 사용된 대화 시나리오 및 탈옥 공격 전략의 수가 제한적일 수 있습니다.
평가 결과가 특정 LLM 아키텍처 및 훈련 데이터에 의존적일 수 있습니다.
안전성 평가의 정확성을 높이기 위한 추가적인 연구가 필요합니다.
👍