每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

最优策略最小贝叶斯风险

Created by
  • Haebom

作者

拉姆对费尔南德斯·阿斯图迪略、阿拉法特·苏丹、阿什卡·特里维迪、优素福·埃尔-库尔迪、塔希拉·纳西姆、拉杜·弗洛里安、萨利姆·鲁科斯

大纲

本文提出了一种推理扩展技术,用于利用 LLM 推理时间计算来解决复杂的推理问题。具体而言,我们提出了一种改进推理时间技术的新方法,例如最佳 N 值 (BoN) 采样、多数表决和最小贝叶斯风险解码 (MBRD),这些技术可以生成并聚合多个候选解。基于 KL 控制强化学习中的最优策略概念,该方法提供了一个将奖励和风险/相似性信号集成到 MBRD 中的框架。与现有的推理时间技术相比,该框架具有更高的鲁棒性、更高的准确率和易于理解的渐近行为。此外,它还支持开发样本高效的 MBRD 变体,这些变体可以根据问题的难度扩展生成的样本数量。我们使用开源模型在 MATH-$500$ 和 HumanEval 任务上展示了该方法的优势,并分析了准确率与计算量的权衡。

Takeaways, Limitations

Takeaways:
我们提出了一个新颖的框架,可以有效地将奖励和风险/相似性信号整合到 MBRD 中。
与现有的推理时间技术相比,提供了更高的稳健性和准确性。
很好理解的渐近行为。
可以开发样本高效的 MBRD 变体。
在 MATH-$500$ 和 HumanEval 任务上表现出色。
准确度-计算复杂度权衡分析。
Limitations:
论文中没有明确提及具体的Limitations。(仅基于论文摘要。)
需要进一步研究所提出方法的可扩展性及其对其他任务的泛化性能。
在应用真实模型时,必须考虑计算成本和复杂性。
👍