每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

通过 LLM 微调进行汤普森采样

Created by
  • Haebom

作者

尼古拉斯·梅内特、亚历山大·泰尔齐奇、迈克尔·赫歇、安德烈亚斯·克劳斯、阿巴斯·拉希米

大纲

本文提出了一种可扩展的替代方案,用于大规模非结构化离散空间中的贝叶斯优化。具体而言,我们提出了一种基于汤普森采样的方法,以解决由于梯度缺失导致的最大化增益函数的计算成本问题。汤普森采样直接参数化候选者获得最大奖励的概率,并利用嵌入在基于提示的大规模语言模型中的先验知识,逐步调整后验概率。我们提出的方法,即基于微调的汤普森采样 (ToSFiT),推导出了一种新的变分汤普森采样的遗憾边界,并从理论上证明了它能够提供标准汤普森采样的强保证。ToSFiT 在三个不同的任务上进行了实验验证:改进常见问题解答、搜索热稳定蛋白质和设计量子电路,证明了通过在线微调显著提高了采样效率。

Takeaways,Limitations

Takeaways:
提出了一种解决大型非结构化离散空间中的贝叶斯优化问题的新方法。
为了克服最大化获取函数的计算成本问题,提出了一种利用汤普森采样的有效方法。
我们提出了一种利用先验知识并通过利用基于提示的大规模语言模型来适应后验概率的方法。
通过理论遗憾界限确保方法论的性能。
通过将该方法应用于各种实际问题(改进常见问题解答、蛋白质搜索、量子电路设计)来验证其有效性。
通过在线微调提高采样效率。
Limitations:
论文中没有明确提及具体的Limitations。(论文摘要中没有提及Limitations。)
👍