OpenCodeEdit 是一个开源流水线,它利用多个 LLM 来合成真实的代码编辑三元组,用于代码编辑——这是软件工程中一项至关重要的任务。该流水线既能生成简洁的“惰性”指令,也能生成更详细的“描述性”指令,并应用 diff 和基于主题的过滤来确保数据质量和多样性。这促成了 OCEDataFT 的创建,这是一个包含 20,000 个样本的精选数据集。在 OCEDataFT 上对三个高级基线模型进行微调,显著提升了 CanItEdit 基准测试的性能,pass@1 的相对提升从 4.50% 提升至 20.79%。值得注意的是,生成的模型实现了接近封闭系统的性能,在无需专有资源或手动注释的情况下,将与 GPT-4 的差距缩小了 3.54%。