Este artículo presenta MISGENDERED+, un modelo de referencia ampliado para evaluar la imparcialidad e inclusión del uso de pronombres de género neutro y emergentes en modelos lingüísticos a gran escala (LLM). Superando las limitaciones del modelo MISGENDERED existente, evaluamos cinco LLM representativos (GPT-4o, Claude 4, DeepSeek-V3, Qwen Turbo y Qwen2.5) en diversos entornos, incluyendo cero disparos, pocos disparos e inferencia de identidad de género. Los resultados de la evaluación demuestran una mayor precisión para pronombres binarios y de género neutro en comparación con estudios previos, pero presentan inconsistencias en tareas de inferencia con pronombres emergentes e inversa. Esto resalta la necesidad de seguir mejorando las capacidades de inferencia con perspectiva de género.