Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
ChineseHarm-Bench : un outil de référence pour la détection des contenus nuisibles en Chine
Created by
Haebom
Auteur
Kangwei Liu, Siyuan Cheng, Bozhong Tian, Xiaozhuan Liang, Yuyang Yin, Meng Han, Ningyu Zhang, Bryan Hooi, Xi Chen, Shumin Deng
Contour
Cet article présente un benchmark complet et annoté par des experts pour la détection de contenus préjudiciables en chinois. Pour relever les défis posés par les ressources existantes de détection de contenus préjudiciables axées sur l'anglais, alors que les bases de données en chinois sont rares et de portée limitée, nous développons un benchmark intégrant six catégories représentatives de données réelles. Grâce au processus d'annotation, nous établissons une base de connaissances expertes pour soutenir la détection de contenus préjudiciables en chinois dans les LLM. Nous proposons ensuite un modèle de base d'augmentation des connaissances qui intègre des règles de connaissances annotées par des humains aux connaissances implicites des LLM, permettant à un petit modèle d'atteindre des performances comparables à celles des LLM de pointe. Le code et les données sont disponibles à l' adresse https://github.com/zjunlp/ChineseHarm-bench .