Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

SPICE: An Automated SWE-Bench Labeling Pipeline for Issue Clarity, Test Coverage, and Effort Estimation

Created by
  • Haebom

作者

Gustavo A. Oliva, Gopi Krishnan Rajbahadur, Aaditya Bhatia, Haoxiang Zhang, Yihao Chen, Zhilong Chen, Arthur Leung, Dayi Lin, Boyuan Chen, Ahmed E. Hassan

概要

本論文は、ソフトウェアエンジニアリングの分野における基礎モデルの学習と評価に不可欠な高品質のラベリングデータセットの作成の難しさを解決するために、自動化されたラベリングパイプラインSPICEを提案します。 SPICEは、コンテキスト認識コード検索、基礎ベースのプロンプト、マルチパスコンセンサスを組み合わせて、専門家レベルのアノテーションに近いラベルを生成します。 800以上のSWE-Gymインスタンスラベリング経験に基づいて設計されており、SWE-bench Verifiedデータとの高い一致率を示し、1,000個のインスタンスラベリングコストを約10万ドルから5.10ドルに大幅に削減する。また、SPICEツールとともに、SWE-Gymの291のオープンソースプロジェクトで得られた6,802のSPICEラベリングインスタンスで構成された新しいデータセットであるSPICE Benchを公開する。

Takeaways、Limitations

Takeaways:
ソフトウェアエンジニアリング分野の基礎モデル学習のための高品質データセットの作成コストを大幅に削減できます。
大規模なデータセットを作成することで、基礎モデルのパフォーマンス向上に貢献できます。
SPICEツールとSPICE Benchデータセットの公開を通じて、研究コミュニティに貢献します。
Limitations:
SPICEの性能は、使用されるプロンプトとモデルの品質に依存します。
現在、特定の種類の注釈(課題の明確さ、テストの適用範囲、作業量の見積もり)にのみ集中しています。他のタイプのアノテーションに対するスケーラビリティが必要です。
SWE-Gymデータセットに基づいているので、他のデータセットへの一般化性能検証が必要です。
👍