本文探讨了对齐问题,该问题对于大规模语言模型 (LLM) 的安全部署至关重要。我们指出了现有基于奖励和无奖励技术的不足,并提出了 DR-IRL(通过逆向强化学习动态调整奖励)来解决安全数据集不平衡和奖励模型静态的问题。DR-IRL 通过逆向强化学习 (IRL) 使用涵盖七个有害类别的平衡安全数据集来训练类别特定的奖励模型。动态奖励调整技术根据任务难度动态调整奖励,并应用于组相对策略优化 (GRPO)。使用各种基准测试和 LLM 的实验结果表明,DR-IRL 在增强可用性的同时保持安全性方面优于现有方法。