Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Synthétique vs. Or : le rôle des étiquettes et des données générées par LLM dans la détection du cyberharcèlement

Created by
  • Haebom

Auteur

Arefeh Kazemi, Sri Balaaji Natarajan Kalaivendan, Joachim Wagner, Hamza Qadeer, Kanishk Verma, Brian Davis

Contour

Cet article aborde les défis du développement d'un système de détection du cyberharcèlement (CB) pour les utilisateurs en ligne, y compris les enfants. Plus précisément, nous proposons une méthode de génération de données synthétiques et d'étiquettes à l'aide d'un modèle de langage à grande échelle (LLM) afin de pallier le manque de données étiquetées reflétant le langage et les styles de communication des enfants. Les résultats expérimentaux montrent qu'un classificateur CB basé sur BERT, entraîné sur des données synthétiques générées via LLM, atteint des performances comparables (précision de 75,8 % contre 81,5 %) à un classificateur entraîné sur des données réelles. De plus, LLM est également efficace pour l'étiquetage de données réelles, le classificateur BERT atteignant des performances comparables (précision de 79,1 % contre 81,5 %). Cela suggère que LLM peut être une solution évolutive, éthique et rentable pour générer des données de détection du cyberharcèlement.

Takeaways, Limitations_

Takeaways:
Nous démontrons que LLM peut répondre efficacement aux défis de génération et d’étiquetage des données pour les systèmes de détection de la cyberintimidation.
Nous proposons des solutions pratiques au défi d’obtenir des données sur la cyberintimidation des enfants, qui est entravé par des contraintes éthiques, juridiques et techniques.
L’exploitation des données synthétiques basées sur le LLM permet la construction de systèmes de détection de cyberintimidation rentables et évolutifs.
Limitations:
Les performances du modèle utilisant des données synthétiques étaient légèrement inférieures à celles du modèle utilisant des données réelles (75,8 % contre 81,5 %). Des recherches supplémentaires sont nécessaires pour réduire cet écart de performance.
Une validation supplémentaire de la qualité et de la diversité des données générées par LLM est nécessaire.
Il est nécessaire d’évaluer dans quelle mesure les données générées par le LLM reflètent avec précision les modèles d’utilisation de la langue des enfants réels.
👍