Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

ChineseHarm-Bench : un outil de référence pour la détection des contenus nuisibles en Chine

Created by
  • Haebom

Auteur

Kangwei Liu, Siyuan Cheng, Bozhong Tian, Xiaozhuan Liang, Yuyang Yin, Meng Han, Ningyu Zhang, Bryan Hooi, Xi Chen, Shumin Deng

Contour

Cet article présente un benchmark complet et annoté par des experts pour la détection de contenus préjudiciables en chinois. Pour relever les défis posés par les ressources existantes de détection de contenus préjudiciables axées sur l'anglais, alors que les bases de données en chinois sont rares et de portée limitée, nous développons un benchmark intégrant six catégories représentatives de données réelles. Grâce au processus d'annotation, nous établissons une base de connaissances expertes pour soutenir la détection de contenus préjudiciables en chinois dans les LLM. Nous proposons ensuite un modèle de base d'augmentation des connaissances qui intègre des règles de connaissances annotées par des humains aux connaissances implicites des LLM, permettant à un petit modèle d'atteindre des performances comparables à celles des LLM de pointe. Le code et les données sont disponibles à l' adresse https://github.com/zjunlp/ChineseHarm-bench .

Takeaways, Limitations

Takeaways:
Contribuer à résoudre le problème de pénurie de données dans le domaine de la détection de contenu préjudiciable chinois.
Fournir des repères inter-catégories à grande échelle basés sur des données du monde réel.
Suggérer la possibilité d'améliorer les performances des LLM en s'appuyant sur une base de règles de connaissances expertes.
Suggérer la possibilité d’améliorer les performances des modèles à petite échelle grâce à des techniques d’augmentation des connaissances.
Nous espérons que le code et les données publiés stimuleront des recherches complémentaires.
Limitations:
Les catégories de référence peuvent être limitées à six.
Peut ne pas refléter pleinement la diversité des contenus préjudiciables dans le monde réel.
Des recherches supplémentaires sont nécessaires sur les performances de généralisation de la technique d’augmentation des connaissances proposée.
Limites de la généralisabilité des résultats de l’étude, qui se limitent à une langue spécifique (le chinois).
👍