Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

CURE : Désapprentissage contrôlé pour des intégrations robustes – Atténuation des raccourcis conceptuels dans les modèles de langage pré-entraînés

Created by
  • Haebom

Auteur

Aysenur Kocak, Shuo Yang, Bardh Prenkaj, Gjergji Kasneci

Contour

Cet article présente CURE, un nouveau framework léger permettant de traiter les corrélations erronées basées sur des concepts qui compromettent la robustesse et l'équité des modèles linguistiques pré-entraînés. CURE extrait les représentations non pertinentes pour les concepts grâce à un extracteur de contenu dédié et à un réseau d'inversion, minimisant ainsi la perte d'informations pertinentes pour la tâche. Un module de correction de biais contrôlable ajuste ensuite l'influence des indices conceptuels résiduels grâce à l'apprentissage contrastif, permettant au modèle de réduire les biais préjudiciables ou d'exploiter les corrélations bénéfiques adaptées à la tâche cible. Évalué sur les jeux de données IMDB et Yelp à l'aide de trois architectures pré-entraînées, CURE a amélioré le score F1 de 10 points sur IMDB et de 2 points sur Yelp, tout en minimisant la charge de calcul. Cette étude présente une conception flexible, basée sur l'apprentissage non supervisé, pour traiter les biais conceptuels, ouvrant la voie à des systèmes de compréhension du langage plus fiables et plus justes.

Takeaways, Limitations

Takeaways:
Présentation d'un cadre efficace et léger pour résoudre le problème de biais conceptuel dans les modèles de langage pré-entraînés.
Démontre des améliorations significatives des performances sur les ensembles de données IMDB et Yelp.
Une approche d’apprentissage flexible et non supervisée qui offre une applicabilité à un large éventail de tâches.
Grande applicabilité pratique grâce à une faible charge de calcul
Limitations:
D’autres expériences sont nécessaires pour évaluer les performances de généralisation de la méthode proposée.
La nécessité d’une analyse des effets de divers types de biais conceptuels.
Des recherches supplémentaires sont nécessaires pour déterminer si l’optimisation des performances est réalisable pour des ensembles de données spécifiques.
👍