每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

通过离线奖励评估和​​策略搜索增强生成式自动竞价

Created by
  • Haebom

作者

牟志宇、吕益勤、徐淼、王奇、毛一秀、叶启辰、李超、白荣泉、于川、徐健、郑波

大纲

自动竞价是提升广告主广告效果的关键工具。基于人工智能的竞价(AIGB)通过离线数据学习条件生成规划器,其性能优于现有的基于强化学习(RL)的离线自动竞价方法。然而,现有的 AIGB 方法由于静态离线数据集的限制而面临性能瓶颈。为了解决这些问题,本文提出了 AIGB-Pearl(Planning with Evaluator via RL),这是一种融合生成规划和策略优化的新型方法。AIGB-Pearl 的核心是构建一个用于评估生成质量的轨迹估计器,并设计一个可证明的 KL-Lipschitz 约束分数最大化方法,以确保该方法在离线数据集之外的安全高效泛化。此外,我们开发了一种集成同步耦合技术的实用算法,以确保所提方法的模型正则性。在模拟和真实广告系统中进行的大量实验证明了所提方法的卓越性能。

Takeaways,Limitations

Takeaways:
AIGB-Pearl 集成了生成规划和策略优化,以克服静态数据集的局限性并提高现有 AIGB 方法的性能。
KL-Lipschitz 约束分数最大化方法确保超越离线数据集的安全高效泛化。
通过同步耦合技术保证模型的规律性,增强了该方法的实用性。
通过模拟和真实世界的广告系统实验展示了最先进的性能。
Limitations:
论文中没有具体提及Limitations(这可能通过进一步研究来揭示)。
👍