每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

双头推理提炼:通过训练时间推理提高分类器准确率

Created by
  • Haebom

作者

Jillian Xu, Dylan Zhou, Vinay Shukla, Yang Yang, Junrui Ruan, Shuhuai Lin, Wenfei Zou, Yinxiao Liu, Karthik Lakshmanan

大纲

本文提出了双头推理蒸馏 (DHRD),以解决推理生成吞吐量降低的问题,同时保持思路链 (CoT) 提示的分类准确率提升。DHRD 是一种简单的训练方法,它添加了一个用于训练和推理的分类头,以及一个仅用于训练的推理头。在 SuperGLUE 基准的七个任务中,DHRD 相对于池化基线模型分别实现了 0.65% 和 5.47% 的相对增益,在蕴含/因果关系任务中增益尤为显著。由于在测试期间禁用了推理头,DHRD 在同一主干网络上的推理QPS 分别比 CoT 解码高出 96 倍和 142 倍

Takeaways, Limitations

Takeaways:
我们提出了一种新方法来解决推理吞吐量问题,同时保持 CoT 提示的优势。
证明了 SuperGLUE 基准上现有模型的性能改进(尤其是在蕴涵/因果关系任务中)。
通过禁用推理头,实现更快的推理速度(比 CoT 解码提高 96-142 倍)。
Limitations:
需要进一步验证以确定论文中提出的方法是否可以推广到其他基准或不同类型的任务。
需要研究确定 DHRD 与其他现有推理优化技术相比如何以及是否存在任何协同效应。
需要对模型训练过程中各头之间的权重调整和优化进行额外的分析。
👍