每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

具有动态奖励缩放的逆向强化学习,用于 LLM 对齐

Created by
  • Haebom

作者

程若曦、马浩轩、王伟新、段冉杰、刘杰希、贾晓爽、秦思萌、曹晓春、刘洋、贾晓军

大纲

本文探讨了对齐问题,该问题对于大规模语言模型 (LLM) 的安全部署至关重要。我们指出了现有基于奖励和无奖励技术的不足,并提出了 DR-IRL(通过逆向强化学习动态调整奖励)来解决安全数据集不平衡和奖励模型静态的问题。DR-IRL 通过逆向强化学习 (IRL) 使用涵盖七个有害类别的平衡安全数据集来训练类别特定的奖励模型。动态奖励调整技术根据任务难度动态调整奖励,并应用于组相对策略优化 (GRPO)。使用各种基准测试和 LLM 的实验结果表明,DR-IRL 在增强可用性的同时保持安全性方面优于现有方法。

Takeaways, Limitations

Takeaways:
我们提出了一种 DR-IRL 技术,可以有效解决不平衡的安全数据集和静态补偿模型的问题。
通过考虑任务难度的动态补偿调整来提高安全性和可用性。
与各种基准和 LLM 中的现有方法相比,表现出更优异的性能。
提出了一种使用逆向强化学习 (IRL) 和基于类别的奖励模型的有效安全排序策略。
Limitations:
需要对所提出的 DR-IRL 的泛化性能进行进一步研究。
需要对七种危险类别之外的其他类型的风险进行可扩展性审查。
需要分析使用文本编码器余弦相似度和奖励差异的难度调整方法Limitations。
需要通过考虑对特定基准和法学硕士的依赖性来进行研究以确保普遍性。
👍