每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

推测安全感知解码

Created by
  • Haebom

作者

王学康、朱胜宇、程学奇

推测安全感知解码(SSD)

大纲

尽管努力使大型语言模型 (LLM) 与人类价值观和安全规则保持一致,但利用漏洞的越狱攻击仍然存在。为了防御这些攻击,本文提出了推测安全感知解码 (SSD),这是一种轻量级的解码时间方法,可增强额外的安全属性。SSD 利用具有安全属性的小型语言模型并加速推理。SSD 将推测采样集成到解码过程中,并使用小型模型和复合模型之间的一致性比率来量化越狱风险。这使得 SSD 能够动态切换解码策略以优先考虑实用性或安全性,同时还解决了不同模型容量的问题。输出 token 是从结合原始模型和小型模型分布的新分布中采样的。

Takeaways,Limitations

Takeaways:
成功授予 LLM 所需的安全属性。
即使对于无害的查询也能保持模型的可用性。
通过推测采样设计加快推理时间。
Limitations:
必须首先确保小型模型的安全性能。
性能可能会因小型和大型模型之间的匹配率设置而异。
👍