Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Chaîne d'inférence pragmatique (PIC) : améliorer le raisonnement des LLM sur le langage implicite toxique authentique

Created by
  • Haebom

Auteur

Xi Chen, Shuo Wang

Contour

Cet article aborde les défis éthiques des modèles linguistiques à grande échelle (MLH) et ouvre de nouvelles perspectives pour le développement de technologies de détection du langage toxique. Alors que les études précédentes utilisaient des données basées sur des associations sémantiques simples (par exemple, des associations biaisées entre « il » et « programmeur » et « elle » et « femme au foyer »), cette étude recueille des données d'interactions toxiques réelles, qui échappent à la censure en ligne et ont été identifiées par des évaluateurs humains comme nécessitant une inférence. À partir de ces données, nous proposons une nouvelle méthode d'incitation, la chaîne d'inférence pragmatique (PIC), s'appuyant sur la recherche en sciences cognitives et en linguistique. Nous démontrons que l'incitation PIC améliore significativement le taux de réussite de l'identification du langage toxique implicite par rapport aux méthodes d'incitation existantes (par exemple, CoT, basées sur des règles), dans des modèles tels que GPT-4o, Llama-3.1-70B-Instruct, DeepSeek-v2.5 et DeepSeek-v3, et produit des processus d'inférence plus clairs et plus cohérents. Cela suggère que notre méthode pourrait être généralisée à d’autres tâches nécessitant une inférence intensive, telles que l’humour et la compréhension des métaphores.

Takeaways, Limitations

Takeaways:
Une nouvelle méthode d’incitation (PIC) est présentée, efficace pour détecter un langage toxique suggestif et sophistiqué.
Amélioration des performances de détection du langage toxique en améliorant les capacités d'inférence de LLM.
Suggérant la généralisabilité de l'incitation PIC à d'autres tâches intensives en inférence (par exemple, l'humour, la compréhension des métaphores)
Création et utilisation d'un ensemble de données sur les interactions toxiques dans des environnements en ligne réels
Limitations:
La généralisabilité de l’incitation PIC proposée doit être vérifiée par des recherches plus approfondies.
Des discussions plus approfondies sont nécessaires concernant la portée et la représentativité de l’ensemble de données utilisé.
Une analyse comparative plus approfondie des performances de l’invite PIC pour différents modèles LLM est nécessaire.
👍