每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

OffTopicEval:当大型语言模型进入错误的聊天时,几乎总是如此!

Created by
  • Haebom

作者

Jingdi Lei、Varun Gumma、Rishabh Bhardwaj、Seok Min Lim、Chuan Li、Amir Zadeh、Souzanya Poria

大纲

大规模语言模型 (LLM) 的安全性是其广泛部署面临的最紧迫挑战之一。与以往关注普遍危害性的研究不同,企业对基于 LLM 的代理是否能够安全地应用于其预期用例有着根本性的担忧。为了解决这个问题,我们将“操作安全性”定义为 LLM 针对特定目的适当接受或拒绝用户查询的能力,并提出了“OffTopicEval”评估套件和基准,用于衡量一般和特定代理用例中的操作安全性。对六个模型系列(包含 20 个开放权重 LLM)的评估结果表明,所有模型均未保持高水平的操作安全性。为了解决这个问题,我们提出了基于查询(Q-ground)和基于系统提示(P-ground)的基于提示的转向方法,显著提高了 OOD 拒绝率。

Takeaways, Limitations

Takeaways:
LLM 的运行安全是广泛部署的关键挑战,目前的模型尚未达到足够的安全级别。
OffTopicEval 基准是评估操作安全性的有用工具。
基于提示的转向方法(Q-ground、P-ground)是提高OOD拒绝的有效方法,有助于提高基于LLM的代理的安全性。
Limitations:
所提出的模型的运行安全评分普遍较低,需要进一步改进。
需要进一步研究以确保基于提示的指导方法在所有模型和所有情况下都同样有效。
除了本文所介绍的内容之外,还需要其他方法来增强 LLM 的安全性。
👍