Cet article présente MISGENDERED+, un benchmark étendu pour évaluer l'équité et l'inclusivité de l'utilisation des pronoms neutres et émergents dans les modèles linguistiques à grande échelle (MLH). Surmontant les limites du benchmark MISGENDERED existant, nous évaluons cinq LLM représentatifs – GPT-4o, Claude 4, DeepSeek-V3, Qwen Turbo et Qwen2.5 – dans différents contextes, notamment l'inférence zéro-coup, l'inférence peu-coup et l'inférence d'identité de genre. Les résultats de l'évaluation démontrent une précision améliorée pour les pronoms binaires et neutres par rapport aux études précédentes, mais révèlent des incohérences dans les tâches d'inférence des pronoms émergents et d'inférence inverse. Cela souligne la nécessité d'améliorer continuellement les capacités d'inférence tenant compte de l'identité de genre.