每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

大型语言模型中对抗性鲁棒性与偏见引发的基准测试:使用 LLM-as-a-Judge 进行可扩展的自动评估

Created by
  • Haebom

作者

里卡多·坎蒂尼、阿莱西奥·奥西诺、马西莫·鲁杰罗、多梅尼科·塔利亚

大纲

随着法学硕士(LLM)的社会重要性日益提升,其固有的偏见问题也随之浮现。本研究提出了一个可扩展的基准测试框架,用于评估法学硕士(LLM)在对抗性偏见诱导下的稳健性。我们系统地检验了针对各种社会文化偏见的多个任务模型,并使用“法学硕士即法官”(LLM-as-a-Judge)方法量化其稳健性,并运用越狱技术揭示其安全漏洞。我们发布了一个名为“CLEAR-Bias”的偏见相关提示精选数据集,并将DeepSeek V3评为最可靠的“法官法学硕士”(LLM)。年龄、残疾和交叉偏见是最突出的发现。一些较小的模型表现优于较大的模型,并且越狱攻击对所有模型都有效。

Takeaways, Limitations

Takeaways:
我们提出了一个基准框架,用于系统地评估法学硕士中的偏见。
通过公开 CLEAR-Bias 数据集来提高研究的可访问性。
这表明模型安全性可能更多地受到训练和架构而非规模的影响。
通过验证越狱攻击的有效性来突出 LLM 安全漏洞。
我们发现,专门用于医疗领域的模型可能不如通用模型安全。
Limitations:
可能无法完美地涵盖所有法学硕士学位。
由于越狱攻击的性质,很难保证完全的安全。
可能仅限于对特定偏见的研究。
评判LLM的依赖性可能会影响评估结果。
👍