每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

MIRROR:法学硕士对话中个性化安全的模块化内部处理

Created by
  • Haebom

作者

妮可·辛

大纲

MIRROR 是一种模块化架构,能够在个性化多轮对话中维护用户的安全相关上下文,抑制奉承倾向,并在优先考虑用户安全的同时防止有害推荐。受双加工理论的启发,MIRROR 由即时响应生成(Talker)和异步审议处理(Thinker)组成。在 CuRaTe 安全基准测试中,MIRROR 的表现相比其他模型提高了 21%,其中开源模型的表现优于商业模型。

Takeaways, Limitations

Takeaways:
我们提出了一种模块化架构,可以有效减少个性化对话中的有害推荐。
提高开源模型的安全性,以弥合与商业模型的差距。
以低成本、安全的方式提高人工智能的可及性
模块化架构设计,部署灵活
Limitations:
论文中没有直接提到具体的Limitations。
👍