Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Découverte de mBad ! : Mise au point supervisée pour une détoxification interlinguistique

Created by
  • Haebom

Auteur

Himanshu Beniwal, Youngwoo Kim, Maarten Sap, Soham Dan, Thomas Hartvigsen

Contour

Dans cet article, nous présentons un nouveau paradigme appelé « Détoxification interlinguistique » pour résoudre le problème de toxicité dans les modèles linguistiques à grande échelle (MLH) utilisés dans le monde entier. Nous explorons comment atténuer la toxicité dans des environnements multilingues couvrant plusieurs langues et systèmes d'écriture, et comment transférer les fonctions de détoxification entre langues riches et pauvres en ressources. Nous évaluons l'effet de réduction de la toxicité des paramètres de distribution interlinguistique dans des environnements à données limitées à l'aide de 392 paramètres extensifs, et analysons l'impact de l'atténuation de la toxicité sur les performances du modèle pour des tâches non toxiques (compromis entre sécurité et préservation des connaissances). Le code et les jeux de données sont accessibles au public.

Takeaways, Limitations

Takeaways:
Nous présentons un nouveau paradigme de décodage multilingue qui peut résoudre efficacement le problème de toxicité du LLM dans les environnements multilingues.
Cela pourrait améliorer l’atténuation de la toxicité pour les langues pauvres en ressources.
Démontre le potentiel de transfert des fonctions d’atténuation de la toxicité entre différents systèmes d’écriture.
Nous avons confirmé l’effet de réduction de la toxicité même dans des environnements de données limités.
Nous avons rendu nos recherches reproductibles et évolutives en rendant notre code et nos ensembles de données ouverts.
Limitations:
Des recherches supplémentaires sont nécessaires sur le compromis entre sécurité et préservation des connaissances.
Une amélioration supplémentaire des performances de généralisation sur différents types de toxicité est nécessaire.
Une évaluation des performances dans des environnements d’application réels est requise.
👍