Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Révéler l'impact des échantillons natifs synthétiques et des stratégies multitâches dans la détection de l'humour et du sarcasme en code hindi-anglais

Created by
  • Haebom

Auteur

Debajyoti Mazumder, Aakash Kumar, Jasabanta Patro

Contour

Cet article présente les résultats d'expériences portant sur diverses stratégies visant à améliorer la détection de l'humour et du sarcasme par mélange de codes. Nous avons exploré trois approches : (i) le mélange d'échantillons de langue maternelle, (ii) l'apprentissage multitâche (MTL) et (iii) l'optimisation par incitation et instruction d'un modèle linguistique multilingue à grande échelle (VMLM). L'optimisation par incitation et instruction consistait à ajouter des échantillons de tâches monolingues à l'ensemble d'apprentissage par mélange de codes, tandis que l'apprentissage par MTL consistait à utiliser des échantillons de langue maternelle et de code mixte provenant d'une tâche sémantiquement liée (détection de la haine dans cette étude). Enfin, nous avons évalué l'efficacité du VMLM par l'optimisation par incitation contextuelle et instruction, réalisée sur plusieurs essais. Les résultats expérimentaux ont montré que l'ajout d'échantillons de langue maternelle améliorait la détection de l'humour et du sarcasme (augmentations du score F1 jusqu'à 6,76 % et 8,64 % respectivement). L'apprentissage du MLM dans le cadre du MTL a encore amélioré la détection de l'humour et du sarcasme (augmentations du score F1 jusqu'à 10,67 % et 12,35 % respectivement). En revanche, les techniques d'incitation et d'affinement des instructions du VMLM n'ont pas surpassé les autres approches. De plus, des études d'ablation et des analyses d'erreurs ont permis d'identifier les points à améliorer dans le modèle, et le code a été rendu public pour garantir sa reproductibilité.

Takeaways, Limitations

Takeaways:
Nous démontrons que le mélange d’échantillons de langue maternelle et l’apprentissage multitâche (MTL) peuvent améliorer considérablement les performances de détection de l’humour et du sarcasme mélangés au code.
Nous avons constaté que l’apprentissage multitâche (MTL) était plus efficace que le mélange d’échantillons de langue maternelle.
Cette étude présente une approche pratique d’amélioration de l’analyse de texte mixte de code.
La reproductibilité de l’étude a été améliorée grâce au code ouvert.
Limitations:
Une analyse plus approfondie est nécessaire pour déterminer pourquoi les incitations et le réglage précis de la direction du VMLM n’ont pas été aussi efficaces que prévu.
Il existe un manque de précisions concernant les domaines dans lesquels une amélioration du modèle est nécessaire, comme le révèlent les études d’ablation et l’analyse des erreurs.
Les performances de généralisation peuvent varier en fonction des caractéristiques de l’ensemble de données et du modèle utilisés.
👍