每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

CAST:通过抽象语法树的结构化分块增强代码检索增强生成

Created by
  • Haebom

作者

张依林、赵欣然、王志若、杨晨阳、魏佳怡、吴同霜

大纲

我们识别出分块(将文档划分为可搜索单元的过程)的问题,该问题在基于检索增强生成 (RAG) 的大规模代码生成中起着至关重要的作用,并提出了一种利用抽象语法树 (AST) 的结构感知分块方法来解决这个问题。该方法在遵循大小约束的同时,以递归方式拆分 AST 节点并合并兄弟节点,从而创建跨语言和任务语义一致的自包含单元。该方法在各种代码生成任务中均展现出性能提升,例如在 RepoEval 检索中将 Recall@5 提升了 4.3 个百分点,在 SWE-bench 生成中将 Pass@1 提升了 2.67 个百分点。

Takeaways, Limitations

我们强调了结构感知分块方法的重要性,并指出它有可能提高基于 RAG 的代码生成管道的性能。
通过基于 AST 的分块生成语义一致的代码片段,提高各种代码生成任务的性能。
我们通过展示 RepoEval 搜索和 SWE-bench 生成中的具体性能改进数据来证明我们方法的有效性。
论文中没有具体说明Limitations。
👍