この論文は、機械学習(ML)作業の予測パフォーマンスに重要な役割を果たすデータ品質の問題をカバーしています。特に、現代の組織で利用可能な膨大なデータソースにより、この問題はさらに深刻化します。従来のデータ発見研究は、主にメタデータマッチング、セマンティック類似性、または特定のクエリに答えるために組み合わせる必要があるテーブル識別に焦点を当てていましたが、後続のMLタスクの高性能のソース品質は考慮していません。この論文は、特定のMLタスクの基本的な学習データセットを構成するために組み合わせる必要があるデータソースの最適なサブセットを決定する問題を解決します。この目的のために、後続のMLモデルの有用性を最大化する適切なソースサブセットを効率的に選択するように設計されたSourceGraspおよびSourceSpliceフレームワークを提案します。どちらのアルゴリズムも、ソース(またはそれらの組み合わせ)が作業の使いやすさに大きく貢献し、慎重に選択する必要があるという重要なアイデアに基づいています。 SourceGraspは貪欲基準とランダム化に基づくメタヒューリスティックを使用しますが、SourceSpliceフレームワークは遺伝子スプライシングに触発されたソース選択メカニズムを提示します。 3 つの実データセットと合成データセットの実験的評価により、SourceSplice がはるかに少ないサブセットナビゲーションでさえも、効果的に高い作業の有用性につながるデータソースのサブセットを識別することを示しています。また、複数の設定でSourceSpliceの意思決定選択に対する感度を報告する研究も行っています。