本文介绍了 Middo,一个用于大规模语言模型 (LLM) 监督微调 (SFT) 的新型框架。Middo 是一个基于模型的自进化动态数据优化框架,它利用模型感知的数据选择和上下文保留的数据细化来克服现有基于静态数据集方法的局限性。自参考诊断模块使用三个维度(损失模式、嵌入簇动态和自对齐分数)的模型信号识别次优样本,然后自适应优化引擎将这些样本转化为具有教育意义的训练点。随着模型性能通过动态学习原理的提升,该优化过程不断发展。多个基准测试的实验结果表明,Middo 在保持原始数据集大小不变的情况下,将 LLM 性能平均提高了 7.15% 的准确率。这代表了通过数据和模型的动态人机协同进化实现可持续 LLM 训练的新范式。