每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

PMPO:小型和大型语言模型的概率度量提示优化

Created by
  • Haebom

作者

赵辰卓、刘自谦、王欣达、陆俊廷、阮超仪

大纲

本文重点探讨了提示优化 (Prompt optimization),将其作为微调的替代方案,以提升大规模语言模型的性能。现有的提示优化方法由于依赖于完整的输出采样和自我批评或基于人工注释的偏好评估,因此可扩展性有限。本文提出了概率度量提示优化 (PMPO),这是一个统一的框架,使用基于标记的交叉熵作为轻量级的直接评估信号。PMPO 通过基于掩码的分析识别低质量的提示片段,并对其进行迭代重写以提出改进的变体。具体而言,PMPO 通过在评估过程中最小化单次前向传递中的损失来选择变体,从而消除了输出采样和人工评分。重写建议是使用标准生成提出的。这种基于损失的策略支持监督任务和基于偏好的任务。PMPO 在各种模型大小和数据集上均优于现有的提示优化方法。它在 BBH 上实现了最高平均准确率,在 GSM8K 和 AQUA RAT 上表现强劲,并在 AlpacaEval 2.0 上将胜率提高了 19% 以上。

Takeaways, Limitations

Takeaways:
提出了一种使用标记级交叉熵的轻量级提示优化方法。
无需输出采样或人工评估即可实现高效的快速优化
支持监督学习和基于偏好的任务
与各种模型和数据集(BBH、GSM8K、AQUA RAT、AlpacaEval 2.0)上的现有方法相比,表现出卓越的性能
Limitations:
可能需要对本文提出的 PMPO 的泛化性能进行进一步研究。
针对特定数据集或模型可能已经实现了优化,需要进一步验证对其他数据集或模型的适用性。
由于基于掩蔽的分析的局限性,有可能无法准确识别一些低质量的提示部分。
👍