Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Họ có hiểu chúng không? Một đánh giá cập nhật về việc xử lý đại từ phi nhị phân trong các mô hình ngôn ngữ lớn

Created by
  • Haebom

Tác giả

Xushuo Tang, Yi Ding, Zhengyi Yang, Yin Chen, Yongrui Gu, Wenke Yang, Mingchen Ju, Xin Cao, Yongfei Liu, Wenjie Zhang

Phác thảo

Bài báo này trình bày MISGENDERED+, một chuẩn mực mở rộng để đánh giá tính công bằng và tính bao hàm của việc sử dụng đại từ trung tính giới tính và đại từ mới nổi trong các mô hình ngôn ngữ quy mô lớn (LLM). Khắc phục những hạn chế của chuẩn mực MISGENDERED hiện có, chúng tôi đánh giá năm LLM tiêu biểu—GPT-4o, Claude 4, DeepSeek-V3, Qwen Turbo và Qwen2.5—trong các bối cảnh khác nhau, bao gồm suy luận zero-shot, few-shot và bản dạng giới. Kết quả đánh giá cho thấy độ chính xác được cải thiện đối với đại từ nhị phân và đại từ trung tính giới tính so với các nghiên cứu trước đây, nhưng lại cho thấy sự không nhất quán trong các nhiệm vụ đại từ mới nổi và suy luận ngược. Điều này nhấn mạnh nhu cầu tiếp tục cải thiện khả năng suy luận nhận biết bản dạng giới.

Takeaways, Limitations

Takeaways:
Giới thiệu chuẩn mực MISGENDERED+, khắc phục được những hạn chế của chuẩn mực hiện tại.
Xác nhận khả năng cải thiện trong việc xử lý đại từ trung tính và nhị phân trong LLM mới nhất.
Đề Xuất hướng nghiên cứu nhằm cải thiện khả năng lập luận khi xem xét bản dạng tình dục.
Limitations:
Thiếu chính xác trong các nhiệm vụ về đại từ mới và suy luận ngược.
Nhu cầu cải thiện liên tục khả năng lập luận có tính đến bản dạng giới tính.
👍