本文提出了一种推理扩展技术,用于利用 LLM 推理时间计算来解决复杂的推理问题。具体而言,我们提出了一种改进推理时间技术的新方法,例如最佳 N 值 (BoN) 采样、多数表决和最小贝叶斯风险解码 (MBRD),这些技术可以生成并聚合多个候选解。基于 KL 控制强化学习中的最优策略概念,该方法提供了一个将奖励和风险/相似性信号集成到 MBRD 中的框架。与现有的推理时间技术相比,该框架具有更高的鲁棒性、更高的准确率和易于理解的渐近行为。此外,它还支持开发样本高效的 MBRD 变体,这些变体可以根据问题的难度扩展生成的样本数量。我们使用开源模型在 MATH-$500$ 和 HumanEval 任务上展示了该方法的优势,并分析了准确率与计算量的权衡。