Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

CAST: Enhancing Code Retrieval-Augmented Generation with Structural Chunking via Abstract Syntax Tree

Created by
  • Haebom

作者

Yilin Zhang, Xinran Zhao, Zora Zhiruo Wang, Chenyang Yang, Jiayi Wei, Tongshuang Wu

概要

Retrieval-Augmented Generation(RAG)ベースの大規模コード生成において重要な役割を果たすchunking(文書を検索可能な単位に分割する過程)の問題点を指摘し、これを解決するためにAbstract Syntax Trees(AST)を活用した構造認識chunking方法論を提案する。提案する方法論は、ASTノードを再帰的に分割し、サイズ制限に従いながら兄弟ノードをマージして、言語とタスクにわたって意味的に一貫した自己包含単位を生成する。 RepoEval検索でRecall@5を4.3点、SWE-bench生成でPass@1を2.67点向上させるなど、さまざまなコード生成作業で性能向上を見せる。

Takeaways、Limitations

構造認識チャンキング方法論の重要性を強調し、RAGベースのコード生成パイプラインのパフォーマンスを向上させる可能性を提示します。
ASTベースのchunkingを通じて意味的に一貫したコードスニペットを生成し、さまざまなコード生成タスクでパフォーマンスを向上させます。
RepoEval検索とSWEベンチ生成における具体的な性能向上数値を提示し,方法論の効果を実証した。
論文に具体的なLimitationsは記載されていない。
👍