ChineseHarm-Bench: A Chinese Harmful Content Detection Benchmark
Created by
Haebom
저자
Kangwei Liu, Siyuan Cheng, Bozhong Tian, Xiaozhuan Liang, Yuyang Yin, Meng Han, Ningyu Zhang, Bryan Hooi, Xi Chen, Shumin Deng
개요
본 논문은 중국어 유해 콘텐츠 탐지에 대한 포괄적이고 전문적으로 주석이 달린 벤치마크를 제시합니다. 기존의 유해 콘텐츠 탐지 자원은 영어에 집중되어 있고 중국어 데이터셋은 부족하며 범위가 제한적이라는 문제를 해결하기 위해, 실제 데이터로 구성된 6가지 대표적인 범주를 포함하는 벤치마크를 개발했습니다. 주석 과정을 통해 LLMs의 중국어 유해 콘텐츠 탐지 지원을 위한 전문가 지식 규칙 기반을 구축하였으며, 인간이 주석한 지식 규칙과 LLMs의 암묵적 지식을 통합하는 지식 증강 기준 모델을 제안하여, 소규모 모델이 최첨단 LLMs와 비슷한 성능을 달성하도록 합니다. 코드와 데이터는 https://github.com/zjunlp/ChineseHarm-bench 에서 이용 가능합니다.