每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

软指标,硬事实

Created by
  • Haebom

作者

娜塔莎·巴特 / 阿瑞尔·科维亚特科斯基 / 伊斯梅尔·拉比亚德 / 朱莉娅·肯佩 / 扬·奥利维尔

大纲

本文提出了一种用于大规模语言模型 (LLM) 的推理方法,该方法在思路链 (CoT) 阶段使用连续标记代替离散标记。基于连续标记混合可以同时模拟多条推理路径重叠的直觉,理论上已经证明连续标记具有显著更高的表达能力,可以更有效地解决某些问题。然而,先前的研究要么仅在预训练的离散标记模型上进行推理时使用连续标记,要么从实际离散 CoT 中提取连续 CoT 的计算成本限制了 CoT 中的标记数量。本研究提出了首个通过强化学习 (RL) 学习连续 CoT 的可扩展方法,无需从基线离散 CoT 中进行提取。通过在 RL 探索中使用“软”标记(即输入嵌入中的标记混合和噪声),我们最大限度地降低了计算开销,并能够学习包含数百个标记的连续 CoT。在使用 Llama 和 Qwen 模型(最多 8B)的数学推理基准测试中,我们证明了使用连续 CoT 进行训练在 pass@1 时可达到与离散 token CoT 相当的性能,并在 pass@32 时超越后者,从而生成更广泛的 CoT。在使用连续 CoT token 进行训练并使用离散 token 进行推理时,性能最佳,这意味着“软”模型可以以标准方式部署。最后,我们证明了连续 CoT 强化学习训练能够更好地保留基础模型对领域外任务的预测,从而对基础模型产生更温和的影响。

Takeaways,Limitations

Takeaways:
我们提出了一种可扩展的方法,使用强化学习来有效地学习连续 CoT。
使用数百个令牌可以进行持续的 CoT 学习
与数学推理基准测试(特别是 Pass@32)中的离散标记 CoT 相比,性能和多样性有所提高。
使用连续 CoT 进行训练,然后使用离散标记进行推断,可获得最佳性能。
在域外任务中更好地保​​留底层模型的预测。
Limitations:
目前,仅展示了数学推理基准测试的结果。对于其他类型任务的推广性尚需进一步研究。
仅展示截至 8B 模型的实验结果。需要扩展到更大的模型。
缺乏对“软”标记的定义以及如何添加噪声的详细解释。缺乏对超参数优化的详细解释。
👍