大规模语言模型 (LLM) 的安全性是其广泛部署面临的最紧迫挑战之一。与以往关注普遍危害性的研究不同,企业对基于 LLM 的代理是否能够安全地应用于其预期用例有着根本性的担忧。为了解决这个问题,我们将“操作安全性”定义为 LLM 针对特定目的适当接受或拒绝用户查询的能力,并提出了“OffTopicEval”评估套件和基准,用于衡量一般和特定代理用例中的操作安全性。对六个模型系列(包含 20 个开放权重 LLM)的评估结果表明,所有模型均未保持高水平的操作安全性。为了解决这个问题,我们提出了基于查询(Q-ground)和基于系统提示(P-ground)的基于提示的转向方法,显著提高了 OOD 拒绝率。