尽管努力使大型语言模型 (LLM) 与人类价值观和安全规则保持一致,但利用漏洞的越狱攻击仍然存在。为了防御这些攻击,本文提出了推测安全感知解码 (SSD),这是一种轻量级的解码时间方法,可增强额外的安全属性。SSD 利用具有安全属性的小型语言模型并加速推理。SSD 将推测采样集成到解码过程中,并使用小型模型和复合模型之间的一致性比率来量化越狱风险。这使得 SSD 能够动态切换解码策略以优先考虑实用性或安全性,同时还解决了不同模型容量的问题。输出 token 是从结合原始模型和小型模型分布的新分布中采样的。