本文重点探讨了提示优化 (Prompt optimization),将其作为微调的替代方案,以提升大规模语言模型的性能。现有的提示优化方法由于依赖于完整的输出采样和自我批评或基于人工注释的偏好评估,因此可扩展性有限。本文提出了概率度量提示优化 (PMPO),这是一个统一的框架,使用基于标记的交叉熵作为轻量级的直接评估信号。PMPO 通过基于掩码的分析识别低质量的提示片段,并对其进行迭代重写以提出改进的变体。具体而言,PMPO 通过在评估过程中最小化单次前向传递中的损失来选择变体,从而消除了输出采样和人工评分。重写建议是使用标准生成提出的。这种基于损失的策略支持监督任务和基于偏好的任务。PMPO 在各种模型大小和数据集上均优于现有的提示优化方法。它在 BBH 上实现了最高平均准确率,在 GSM8K 和 AQUA RAT 上表现强劲,并在 AlpacaEval 2.0 上将胜率提高了 19% 以上。