Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

SourceSplice: Source Selection for Machine Learning Tasks

Created by
  • Haebom

作者

Ambarish Singh, Romila Pradhan

概要

この論文は、機械学習(ML)作業の予測パフォーマンスに重要な役割を果たすデータ品質の問題をカバーしています。特に、現代の組織で利用可能な膨大なデータソースにより、この問題はさらに深刻化します。従来のデータ発見研究は、主にメタデータマッチング、セマンティック類似性、または特定のクエリに答えるために組み合わせる必要があるテーブル識別に焦点を当てていましたが、後続のMLタスクの高性能のソース品質は考慮していません。この論文は、特定のMLタスクの基本的な学習データセットを構成するために組み合わせる必要があるデータソースの最適なサブセットを決定する問題を解決します。この目的のために、後続のMLモデルの有用性を最大化する適切なソースサブセットを効率的に選択するように設計されたSourceGraspおよびSourceSpliceフレームワークを提案します。どちらのアルゴリズムも、ソース(またはそれらの組み合わせ)が作業の使いやすさに大きく貢献し、慎重に選択する必要があるという重要なアイデアに基づいています。 SourceGraspは貪欲基準とランダム化に基づくメタヒューリスティックを使用しますが、SourceSpliceフレームワークは遺伝子スプライシングに触発されたソース選択メカニズムを提示します。 3 つの実データセットと合成データセットの実験的評価により、SourceSplice がはるかに少ないサブセットナビゲーションでさえも、効果的に高い作業の有用性につながるデータソースのサブセットを識別することを示しています。また、複数の設定でSourceSpliceの意思決定選択に対する感度を報告する研究も行っています。

Takeaways、Limitations

Takeaways:
MLタスクのパフォーマンスを向上させるためのデータソース選択の問題に対する新しいアプローチを提示します。
SourceSpliceアルゴリズムは、効率的に最適なデータソースのサブセットを選択することで、高いタスクの使いやすさを達成します。
実データセットと合成データセットを用いた実験的評価によるアルゴリズムの有効性検証
SourceSpliceの感度解析によるアルゴリズムの信頼性確認
Limitations:
提案されたアルゴリズムの性能は、使用されるデータセットとML操作によって異なります。
SourceSpliceの遺伝子スプライシングに触発されたメカニズムがすべてのタイプのデータソースに適用可能であることに関するさらなる研究が必要です。
より多様で大規模なデータセットの実験的評価が必要です。
特定のML操作のための最適なサブセットサイズを決定する方法に関するさらなる研究が必要である。
👍