Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Améliorer la robustesse de la reconnaissance d'entités nommées supervisées à distance grâce à l'apprentissage par l'enseignant conscient de l'incertitude et à l'apprentissage collaboratif entre élèves

Created by
  • Haebom

Auteur

Shuzheng Si, Helan Hu, Haozhe Zhao, Shuang Zeng, Kaikai An, Zefan Cai, Baobao Chang

Contour

La reconnaissance d'entités nommées supervisée à distance (DS-NER) est largement utilisée dans des scénarios réels, mais elle souffre du problème du bruit d'étiquetage. Les méthodes existantes, basées sur le cadre enseignant-élève, présentent des limites : elles génèrent des échantillons pseudo-étiquetés incorrects en raison de la faible fiabilité du réseau enseignant, ce qui entraîne une propagation d'erreurs. Pour résoudre ces problèmes, nous proposons dans cet article (1) un apprentissage par l'enseignant tenant compte de l'incertitude afin de réduire le nombre de pseudo-étiquettes incorrectes en exploitant l'incertitude de prédiction, et (2) un apprentissage collaboratif entre élèves afin de réduire la dépendance aux pseudo-étiquettes et d'explorer pleinement les échantillons mal étiquetés grâce à une propagation fiable des étiquettes entre les deux réseaux d'élèves. La méthode proposée surpasse les méthodes DS-NER de pointe sur cinq jeux de données DS-NER.

Takeaways, Limitations

Takeaways: Nous proposons une nouvelle méthode pour résoudre efficacement le problème du bruit des étiquettes dans la reconnaissance d'entités nommées supervisée à distance (DS-NER), et atteindre des performances de pointe. Grâce à l'apprentissage par l'enseignant tenant compte de l'incertitude et à l'apprentissage collaboratif entre élèves, nous améliorons la fiabilité du réseau d'enseignants et générons des pseudo-étiquettes plus précises, ce qui améliore les performances.
Limitations: L'efficacité de la méthode proposée peut varier selon l'ensemble de données utilisé. Des expériences supplémentaires sur différents types d'ensembles de données sont nécessaires, et le coût de calcul peut augmenter. Des recherches supplémentaires sur les performances de généralisation à des domaines ou langages spécifiques sont nécessaires.
👍