Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Do They Understand Them? An Updated Evaluation on Nonbinary Pronoun Handling in Large Language Models

Created by
  • Haebom

作者

Xushuo Tang, Yi Ding, Zhengyi Yang, Yin Chen, Yongrui Gu, Wenke Yang, Mingchen Ju, Xin Cao, Yongfei Liu, Wenjie Zhang

概要

この論文は、大規模言語モデル(LLM)の性別中立および新生代名詞の使用の公平性と包括性を評価するための拡張ベンチマークであるMISGENDERED +を提示します。既存のMISGENDEREDベンチマークの限界を克服し、GPT-4o、Claude 4、DeepSeek-V3、Qwen Turbo、Qwen2.5など5つの代表的なLLMをゼロショット、フューショット、性同一性推論など様々な設定で評価します。評価の結果、以前の研究よりもバイナリ代名詞と性別中立代名詞の精度が向上しましたが、新生代名詞と逆推論作業では依然として一貫性が欠けています。これは、性的アイデンティティを考慮した推論能力の継続的な改善の必要性を示唆している。

Takeaways、Limitations

Takeaways:
既存のベンチマークの限界を克服するMISGENDERED+ベンチマークを提示。
最新LLMの性別ニュートラルとバイナリ代名詞の処理能力の向上を確認。
性的アイデンティティを考慮した推論能力を向上させるための研究方向を提示する。
Limitations:
新生代名詞と逆推論作業における精度の欠如
性のアイデンティティを考慮した推論能力の継続的な改善の必要性
👍