본 논문은 대규모 언어 모델(LLM)의 안전성 평가를 위해 설계된 SafeDialBench 벤치마크를 제시합니다. 현재 벤치마크의 단일 턴 대화 및 단일 탈옥 공격 방식의 한계를 극복하고, LLM의 안전성을 정밀하게 평가하기 위해 개발되었습니다. SafeDialBench는 다중 턴 대화에서 다양한 탈옥 공격에 대한 LLM의 안전성을 평가하며, 6가지 안전성 차원을 고려한 2단계 계층적 안전성 분류 체계를 기반으로 합니다. 또한, 22개의 대화 시나리오에서 중국어 및 영어로 4,000개 이상의 다중 턴 대화를 생성하고, 7가지 탈옥 공격 전략을 활용하여 데이터 세트의 품질을 향상시켰습니다. LLM이 부적절한 정보를 감지하고 처리하는 능력과 탈옥 공격에 직면했을 때 일관성을 유지하는 능력을 측정하는 혁신적인 평가 프레임워크를 구축했습니다. 17개의 LLM에 대한 실험 결과, Yi-34B-Chat 및 GLM4-9B-Chat가 우수한 안전성 성능을 보였고, Llama3.1-8B-Instruct 및 o3-mini는 안전성 취약점을 드러냈습니다.
시사점, 한계점
•
시사점:
◦
다중 턴 대화 및 다양한 탈옥 공격 방식을 통해 LLM의 안전성을 보다 포괄적으로 평가할 수 있는 벤치마크를 제공합니다.
◦
LLM의 안전성 평가를 위한 새로운 평가 프레임워크를 제시하여, 부적절한 정보 감지, 처리 능력 및 일관성 유지를 측정합니다.
◦
다양한 LLM의 안전성 성능을 비교 분석하여, 안전성 개선을 위한 벤치마크로 활용될 수 있습니다.