自动竞价是提升广告主广告效果的关键工具。基于人工智能的竞价(AIGB)通过离线数据学习条件生成规划器,其性能优于现有的基于强化学习(RL)的离线自动竞价方法。然而,现有的 AIGB 方法由于静态离线数据集的限制而面临性能瓶颈。为了解决这些问题,本文提出了 AIGB-Pearl(Planning with Evaluator via RL),这是一种融合生成规划和策略优化的新型方法。AIGB-Pearl 的核心是构建一个用于评估生成质量的轨迹估计器,并设计一个可证明的 KL-Lipschitz 约束分数最大化方法,以确保该方法在离线数据集之外的安全高效泛化。此外,我们开发了一种集成同步耦合技术的实用算法,以确保所提方法的模型正则性。在模拟和真实广告系统中进行的大量实验证明了所提方法的卓越性能。