本論文は,Retrieval-Augmented Code Generation(RACG)におけるコード検索の特徴を分析し,機能を維持しながら特定の特徴を体系的にマスキングする実験を行う。実験の結果、既存のコード検索モデルはdocstringや識別子名などの表面的な文字特性に大きく依存し、関連性がなくてもよく文書化されたコードに偏っていることがわかりました。これに基づいて、コードまたは構造的知識に意味情報を追加して文字情報を豊かにし、バイアスを減らすSACLフレームワークを提案します。実験の結果、SACLはHumanEval、MBPP、SWE-Bench-Liteでコード検索のパフォーマンスを大幅に向上させ(例:Recall @ 1ではそれぞれ12.8%、9.4%、7.0%の向上)、コード生成のパフォーマンスも向上することを示しています(例:HumanEvalではPass @ 1に基づいて4.88%向上)。