每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

Middo:通过闭环学习增强 LLM 微调的模型信息动态数据优化

Created by
  • Haebom

作者

唐子楠、高鑫、裴启智、潘卓石、蔡孟章、吴江、何从辉、吴丽君

大纲

本文介绍了 Middo,一个用于大规模语言模型 (LLM) 监督微调 (SFT) 的新型框架。Middo 是一个基于模型的自进化动态数据优化框架,它利用模型感知的数据选择和上下文保留的数据细化来克服现有基于静态数据集方法的局限性。自参考诊断模块使用三个维度(损失模式、嵌入簇动态和自对齐分数)的模型信号识别次优样本,然后自适应优化引擎将这些样本转化为具有教育意义的训练点。随着模型性能通过动态学习原理的提升,该优化过程不断发展。多个基准测试的实验结果表明,Middo 在保持原始数据集大小不变的情况下,将 LLM 性能平均提高了 7.15% 的准确率。这代表了通过数据和模型的动态人机协同进化实现可持续 LLM 训练的新范式。

Takeaways, Limitations

Takeaways:
我们提出了一个动态数据优化框架,随着模型性能的提高,该框架不断改进数据集。
克服现有基于静态数据集的 SFT 的局限性,提高 LLM 性能(平均准确率提升 7.15%)。
我们提出了一种利用模型损失模式、嵌入集群动态和自对齐分数的创新数据质量评估和改进方法。
通过数据和模型之间的动态交互呈现可持续的 LLM 培训范式。
Limitations:
需要验证已发布的代码和数据集的可访问性(论文中提到它们将来会公开)。
各种LLM架构和任务都需要进行泛化性能验证。
需要进一步研究自我参照诊断模块的可靠性和可解释性。
缺乏关于如何准确计算模型自对齐分数的详细解释。
👍