每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

X-Teaming Evolutionary M2S:自动发现多回合到单回合越狱模板

Created by
  • Haebom

作者

Kim Hyunjun、Junwoo Ha、Sangyoon Yu、Haon Park

大纲

X - Teaming Evolutionary M2S 是一个通过基于语言模型的进化自动发现和优化多转单转 (M2S) 模板的框架。它从 12 个来源进行智能采样,并利用 LLM-as-judge 维护完整的审计日志,该机制的灵感源自 StrongREJECT。我们将成功阈值设置为 $\theta = 0.70$,经过五代进化获得了两个新的模板系列,在 GPT-4.1 上实现了 44.8% (103/230) 的总体成功率。此外,我们观察到不同模型的结构改进存在差异,并且提示长度与得分之间存在正相关关系。

Takeaways, Limitations

我们提出了一种使用结构化搜索创建强大的单转提示的可重复方法。
强调了阈值调整和跨模型评估的重要性。
我们发现提示长度和分数之间存在正相关关系,这提出了基于长度的判断的必要性。
尽管论文中没有明确提到具体的 Limitations,但考虑目标模型之间的性能变化和模型之间的性能差异非常重要。
仅展示了有限模型(GPT-4.1)的实验结果,需要进一步研究以确定其对其他模型的普遍性。
虽然我们在基于手动编写模板的研究上有所改进,但我们缺乏对框架自动化过程中可能出现的潜在问题的讨论。
👍