Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
ChineseHarm-Bench : un outil de référence pour la détection des contenus nuisibles en Chine
Created by
Haebom
Auteur
Kangwei Liu, Siyuan Cheng, Bozhong Tian, Xiaozhuan Liang, Yuyang Yin, Meng Han, Ningyu Zhang, Bryan Hooi, Xi Chen, Shumin Deng
Contour
Cet article présente un benchmark complet et annoté par des experts pour la détection de contenus préjudiciables en chinois. Étant donné que les ressources existantes en matière de détection de contenus préjudiciables sont axées sur l'anglais, et que les ensembles de données en chinois sont rares et de portée limitée, nous développons un benchmark couvrant six catégories représentatives de données réelles. Grâce au processus d'annotation, nous générons une base de règles de connaissances expertes pour soutenir la détection de contenus préjudiciables en chinois dans les LLM. Nous proposons ensuite un modèle de base d'augmentation des connaissances qui intègre les règles de connaissances annotées par l'homme aux connaissances implicites des LLM, permettant à un petit modèle d'atteindre des performances comparables à celles des LLM de pointe. Le code et les données sont disponibles à l'adresse https://github.com/zjunlp/ChineseHarm-bench .
Contribuer à résoudre le problème de pénurie de données dans le domaine de la détection de contenu préjudiciable chinois.
◦
Accélérer les avancées de la recherche en fournissant des repères à grande échelle basés sur des données du monde réel.
◦
Améliorer les performances du LLM en présentant des modèles de référence basés sur des règles de connaissances expertes et des modèles de référence d'augmentation des connaissances.
◦
Suggérant la possibilité d’améliorer les performances des modèles à petite échelle.
•
Limitations:
◦
Les catégories de référence peuvent être limitées à six.
◦
Bien que basé sur des données réelles, un examen plus approfondi est nécessaire pour déterminer le biais des données et leur généralisabilité.
◦
Des recherches supplémentaires sont nécessaires sur les performances de généralisation du modèle de base d’augmentation des connaissances proposé.
◦
Des recherches supplémentaires sont nécessaires sur les différents types de contenus préjudiciables et les différents dialectes chinois.