Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

SACL: Understanding and Combating Textual Bias in Code Retrieval with Semantic-Augmented Reranking and Localization

Created by
  • Haebom

作者

Dhruv Gupta、Gayathri Ganesh Lakshmy、Yiqing Xie

概要

本論文は,Retrieval-Augmented Code Generation(RACG)におけるコード検索の特徴を分析し,機能を維持しながら特定の特徴を体系的にマスキングする実験を行う。実験の結果、既存のコード検索モデルはdocstringや識別子名などの表面的な文字特性に大きく依存し、関連性がなくてもよく文書化されたコードに偏っていることがわかりました。これに基づいて、コードまたは構造的知識に意味情報を追加して文字情報を豊かにし、バイアスを減らすSACLフレームワークを提案します。実験の結果、SACLはHumanEval、MBPP、SWE-Bench-Liteでコード検索のパフォーマンスを大幅に向上させ(例:Recall @ 1ではそれぞれ12.8%、9.4%、7.0%の向上)、コード生成のパフォーマンスも向上することを示しています(例:HumanEvalではPass @ 1に基づいて4.88%向上)。

Takeaways、Limitations

Takeaways:
コード検索モデルの表面積の特徴依存性とよく文書化されたコードの偏りを明らかにすることによって、RACGの改善の方向を提示します。
SACLフレームワークがコードの検索と生成のパフォーマンスを向上させることができることを実験的に証明します。
意味情報を活用したコード検索と生成の重要性を強調します。
Limitations:
SACLのパフォーマンス向上が特定のデータセットに限定される可能性があります。
さまざまなプログラミング言語やコードスタイルでの一般化の可能性に関するさらなる研究が必要です。
セマンティクス情報の抽出と利用方法のより洗練された研究が必要になるかもしれません。
👍