每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

PakBBQ:一种适应文化的 QA 偏见基准

Created by
  • Haebom

作者

阿卜杜拉·哈什马特、穆罕默德·阿勒姆·米尔扎、阿迦·阿里·拉扎

PakBBQ:文化和地域的偏见基准

大纲

本文介绍了 PakBBQ,这是一个低资源、低语境、大规模语言模型 (LLM),旨在确保公平性,并解决低资源、低语境以及低语境语言和地域语境的缺陷。PakBBQ 是原始 BBQ(问答偏见基准)数据集的文化和地域特定扩展,包含超过 214 个模板和 17,180 个英语和乌尔都语问答 (QA) 对,涵盖与巴基斯坦相关的八个偏见维度:年龄、残疾、外貌、性别、社会经济地位、宗教、地域归属和语言正式性。我们在模糊和明确语境特定的设置下,以及在消极和积极问题框架下评估了各种多语言 LLM。实验结果表明,使用语境特定设置后,准确率平均提高了 12%,乌尔都语的反偏见行为始终优于英语,并且消极问题框架下的刻板反应有所减少。

Takeaways,Limitations

Takeaways:
我们强调了情境敏感基准的重要性,并证明了简单的提示工程策略对于在低资源环境中减轻偏见的有效性。
证明了需要建立文化和区域特定的数据集来评估多语言法学硕士中的偏见。
这表明,在乌尔都语等资源匮乏的语言中,法学硕士偏见可能不那么明显。
我们表明,问题框架(正面/负面)会影响 LLM 的反应偏差。
Limitations:
论文中并未明确提及具体的Limitations。(仅基于论文摘要)
👍