本文论证了评分标准(Rubrics)为在开放式长答案问题上训练大规模语言模型(LLM)提供了一种灵活的方法,其中不应用可验证的奖励,而人类偏好则充当粗略信号。研究表明,使用基于评分标准的奖励的强化学习能够持续提升LLM的训练后表现。大多数现有方法在训练过程中依赖于静态评分标准。然而,这些静态评分标准容易受到奖励黑客攻击等行为的影响,并且无法捕捉训练过程中出现的新需求。本文介绍了在线评分标准引出(OnlineRubrics),这是一种通过对当前策略和参考策略的响应进行两两比较,在线动态地制定评估标准的方法。这种在线流程能够在训练过程中持续识别和减少错误。实验表明,与在AlpacaEval、GPQA、ArenaHard以及专家问题和评分标准验证集上单独使用静态评分标准进行训练相比,该方法持续实现了高达8%的提升。对提取的标准进行定性分析,确定了透明度、实用性、组织性和推理等关键主题。