每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

通过开源语言模型生成用于代码编辑的高质量数据集

Created by
  • Haebom

作者

张泽凯、刘明伟、陈振希、梁林希、陈宇轩、欧广胜、王彦霖、李丹、彭鑫、郑子斌

大纲

OpenCodeEdit 是一个开源流水线,它利用多个 LLM 来合成真实的代码编辑三元组,用于代码编辑——这是软件工程中一项至关重要的任务。该流水线既能生成简洁的“惰性”指令,也能生成更详细的“描述性”指令,并应用 diff 和基于主题的过滤来确保数据质量和多样性。这促成了 OCEDataFT 的创建,这是一个包含 20,000 个样本的精选数据集。在 OCEDataFT 上对三个高级基线模型进行微调,显著提升了 CanItEdit 基准测试的性能,pass@1 的相对提升从 4.50% 提升至 20.79%。值得注意的是,生成的模型实现了接近封闭系统的性能,在无需专有资源或手动注释的情况下,将与 GPT-4 的差距缩小了 3.54%。

Takeaways, Limitations

Takeaways:
通过开源管道生成真实世界的代码编辑指令,从而提高基准测试性能。
无需专有资源即可实现接近 GPT-4 的性能,展现开源模型的竞争力。
创建简洁而详细的说明来应对各种情况。
Limitations:
需要进一步分析过滤方法的有效性,以确保数据质量和多样性。
该模型的泛化能力以及对各类代码编辑任务的适用性有待进一步验证。
需要进一步研究来了解有助于提高绩效的具体因素(例如,特定的 LLM、微调策略)。
👍