每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

通过全面的答案弥合信息差距:提高后续问题的多样性和信息量

Created by
  • Haebom

作者

刘喆、姜泽奎、王浩宇、Seyed Hossein Alavi、Vered Shwartz

大纲

本文探讨了如何生成多样化的后续问题,以弥补基于本地模型的小型对话智能体中的信息缺口。为此,我们开发了一个基于信息缺口的知识提炼流程,其中教师法学硕士 (LLM) 生成全面的答案,将其与初始答案进行比较,识别信息缺口,并制定后续问题来填补。利用该流程,我们将现有的 FollowupQG 数据集扩展了 10 倍,并在扩展后的数据集上对一个小型学生模型进行了微调,以提炼教师的知识。在选定的师生模型对上进行的实验结果表明,与在原始数据集上训练的变体模型相比,微调后的学生模型显著提高了信息质量和多样性。这表明,该流程反映了人类信息搜索的认知过程,可以提供一条从最先进的 LLM 到小型模型的高效提炼通道,从而能够在资源受限的对话系统中生成更加多样化、信息丰富的后续问题。

Takeaways,Limitations

Takeaways:
我们提出了一种高效的知识提炼流程,即使从小规模的局部模型中也能生成多样化且信息丰富的后续问题。
通过模仿人类信息寻求认知过程的方法实现高性能。
通过将现有数据集扩展 10 倍来提高数据集质量。
提出一种将前沿的 LLM 知识有效地转移到小规模模型中的方法。
Limitations:
仅展示特定师生模型对的实验结果,因此需要进一步研究以确定普遍性。
性能可能因所使用的 LLM 和数据集的特性而异。
需要进一步评估以应用于现实世界的对话系统。
👍