Bài báo này trình bày MISGENDERED+, một chuẩn mực mở rộng để đánh giá tính công bằng và tính bao hàm của việc sử dụng đại từ trung tính giới tính và đại từ mới nổi trong các mô hình ngôn ngữ quy mô lớn (LLM). Khắc phục những hạn chế của chuẩn mực MISGENDERED hiện có, chúng tôi đánh giá năm LLM tiêu biểu—GPT-4o, Claude 4, DeepSeek-V3, Qwen Turbo và Qwen2.5—trong các bối cảnh khác nhau, bao gồm suy luận zero-shot, few-shot và bản dạng giới. Kết quả đánh giá cho thấy độ chính xác được cải thiện đối với đại từ nhị phân và đại từ trung tính giới tính so với các nghiên cứu trước đây, nhưng lại cho thấy sự không nhất quán trong các nhiệm vụ đại từ mới nổi và suy luận ngược. Điều này nhấn mạnh nhu cầu tiếp tục cải thiện khả năng suy luận nhận biết bản dạng giới.