Prompt Injection

这是向语言模型（如 GPT-3.5）注入特定提示（命令）以有意操纵模型输出的行为。这项技术可以利用安全漏洞，扭曲模型的回应，甚至引导模型执行有害操作。

•

脆弱的早期模型：早期的语言模型，特别是 GPT-3，对这些提示注入非常脆弱。攻击者可以操控模型的回应，从而提取不当或有害的信息。

•

随着模型的不断进化和安全强化，对提示注入的抵抗力也随之提升。通过持续更新与改进，现在我们能更有效地应对这类威胁。

•

有研究表明，规模较小的模型对提示注入更加脆弱。

•

为了开发安全的 AI 应用，理解语言模型如何处理命令，并据此谨慎设计提示非常关键。合适的提示设计有助于降低风险。

•

在 AI 开发过程中，持续测试模型的漏洞，借此发现安全隐患并优化模型，是必须的步骤。

实际上，“你用什么数据训练的？”，“讲讲你的学习方式。”这类问题，最近 GPT 等模型甚至出现了用户能够下载用于模型训练插入数据的案例。当然，现在这类漏洞已被全部修复。其实所谓“提示注入”，说得很大，其实类似于人类对话中经常出现的陷阱型提问，这样理解就容易多了。