Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Les comprennent-ils ? Une évaluation actualisée de la gestion des pronoms non binaires dans les grands modèles linguistiques

Created by
  • Haebom

Auteur

Xushuo Tang, Yi Ding, Zhengyi Yang, Yin Chen, Yongrui Gu, Wenke Yang, Mingchen Ju, Xin Cao, Yongfei Liu, Wenjie Zhang

Contour

Cet article présente MISGENDERED+, un benchmark étendu pour évaluer l'équité et l'inclusivité de l'utilisation des pronoms neutres et émergents dans les modèles linguistiques à grande échelle (MLH). Surmontant les limites du benchmark MISGENDERED existant, nous évaluons cinq LLM représentatifs – GPT-4o, Claude 4, DeepSeek-V3, Qwen Turbo et Qwen2.5 – dans différents contextes, notamment l'inférence zéro-coup, l'inférence peu-coup et l'inférence d'identité de genre. Les résultats de l'évaluation démontrent une précision améliorée pour les pronoms binaires et neutres par rapport aux études précédentes, mais révèlent des incohérences dans les tâches d'inférence des pronoms émergents et d'inférence inverse. Cela souligne la nécessité d'améliorer continuellement les capacités d'inférence tenant compte de l'identité de genre.

Takeaways, Limitations

Takeaways:
Présentation du benchmark MISGENDERED+, qui surmonte les limites des benchmarks existants.
Confirmation d'une capacité améliorée à gérer les pronoms neutres et binaires dans le dernier LLM.
Proposer des pistes de recherche pour améliorer la capacité de raisonnement en tenant compte de l’identité sexuelle.
Limitations:
Manque de précision dans les tâches de nouveaux pronoms et d’inférence inverse.
La nécessité d’une amélioration continue des capacités de raisonnement qui prennent en compte l’identité de genre.
👍