每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

SIA:通过视觉语言模型的意图感知增强安全性

Created by
  • Haebom

作者

Youngjin Na、Sangheon Jeong、Youngwan Lee、Jian Lee、Dawoon Jeong、Youngman Kim

大纲

随着视觉语言模型 (VLM) 在实际应用中的部署日益增多,先前被忽视的安全风险也日益凸显。具体而言,看似无害的多模态输入可能组合在一起,从而暴露出恶意意图,导致不安全的模型输出。“意图感知安全”(SIA) 是一种无需训练、具备意图感知能力的安全框架,旨在应对这些潜在风险。它能够主动检测多模态输入中的恶意意图,并据此生成安全的响应。SIA 遵循三个步骤:视觉抽象(字幕)、通过少量恐怖链 (CoT) 提示进行意图推断,以及基于意图的响应生成。通过动态适应从图像-文本对推断出的隐式意图,SIA 无需大量再训练即可减轻恶意输出的影响。在 SIUO、MM-SafetyBench 和 HoliSafe 等安全基准上进行的大量实验表明,SIA 能够持续提升安全性,并且性能优于现有的无需训练的方法。

Takeaways, Limitations

提出的无需培训的安全框架:无需大量再培训即可提高安全性。
意图感知方法:有效检测多模式输入中的潜在风险。
实验结果:在各种安全基准上优于现有方法。
Limitations:未明确提及(摘要中)。
👍