每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

将语言模型变成分层分类器

Created by
  • Haebom

作者

王一红、姜忠林、奚宁远、赵越、顾青青、陈希远、吴浩、徐胜、周汉歌、陈勇、罗吉

大纲

仅使用解码器的语言模型(例如 GPT 和 LLaMA)通常在最后一层执行解码。本研究提出了一种分层解码器架构,利用人类的分层推理能力,同时解码不同层的文本。为了将预训练语言模型适配到这种分层解码器配置,我们将语言中心从最后一层复制到选定的中间层,并使用不同的任务输入对其进行微调。实验表明,这些选择性中间层可以生成有意义且合理的内容,并且这种分层解码器范式在多个任务上实现了最佳性能,包括分层文本分类、基于分类的生成和分层文本生成。HdLM 在 WoS、DBpedia、ESconv、EmpatheticDialogues 和多项认知测试中均优于所有基准模型。此外,我们对该方法的收敛性和计算节省进行了全面的理论分析。本研究展示了从零开始训练的广义分层恒河猴机器学习模型的潜力。

Takeaways, Limitations

Takeaways:
通过分层解码器架构可以提高语言模型的性能。
通过利用可选的中间层,可以有效地调整预训练模型。
它在多种任务中实现了 SOTA 性能,并且在分层任务中尤其有效。
通过理论分析验证了该方法的有效性。
我们建议开发一种从头开始训练的广义分层谐振器。
Limitations:
由于时间和计算资源的限制,我们使用预训练模型。
如何选择和微调特定层还需要进一步研究。
需要进一步评估该模型的泛化能力。
👍