每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

通过开源语言模型生成用于代码编辑的高质量数据集

Created by
  • Haebom

作者

张泽凯、刘明伟、陈振希、梁林希、陈宇轩、欧广胜、王彦霖、李丹、彭鑫、郑子斌

大纲

本文介绍了 OpenCodeEdit,这是一个用于代码编辑的开源流水线,而代码编辑是软件工程中一项至关重要的任务。它反映了现实世界的代码编辑指南风格,并确保了数据的质量和多样性。该流水线使用多个 LLM 合成真实的代码编辑三元组,并应用基于差异和主题的过滤来确保数据的质量和多样性。我们使用包含 2 万个样本的 OCEDataFT 数据集,对三个先进的基线模型进行了微调,在 CanItEdit 基准测试中取得了显著的性能提升。最终的模型性能接近 GPT-4,且无需专有资源或手动注释。

Takeaways, Limitations

Takeaways:
我们使用开源管道 OpenCodeEdit 构建真实的代码编辑数据集,提高了代码编辑模型的性能。
我们在没有专有资源的情况下实现了接近 GPT-4 的性能,使代码编辑更加容易。
您可以创建“懒惰”和“描述”类型的指令来满足不同用户的需求。
Limitations:
开源管道的性能取决于 LLM 的质量,并且随着 LLM 的发展需要不断改进。
需要进一步研究来探索该模型的泛化能力和在现实环境中的适用性。
需要审视20K样本的数据集大小是否足以进行大规模模型训练。
👍