Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

TabSketchFM: Sketch-based Tabular Representation Learning for Data Discovery over Data Lakes

Created by
  • Haebom

作者

Aamod Khatiwada, Harsha Kokel, Ibrahim Abdelaziz, Subhajit Chaudhury, Julian Dolby, Oktie Hassanzadeh, Zhenhan Huang, Tejaswini Pedapati, Horst Samulowitz, Kavitha Srinivas

概要

本論文は、データレイク内の関連テーブル(統合可能、結合可能、または相互のサブセットであるテーブル)を識別する必要がある企業のニーズを高めるために、ニューラルネットワークベースのテーブルモデルであるTabSketchFMを提示します。 TabSketchFMは、スケッチベースの事前学習方法を使用してニューラルネットワークテーブルモデルのデータ発見効率を向上させ、事前学習モデルを微調整して、統合可能、結合可能、およびサブセットテーブルのペアを識別します。従来のニューラルネットワークテーブルモデルと比較して大幅なパフォーマンス向上を示し、詳細なablation studyを介して各タスクに重要なスケッチを強調します。さらに、微調整されたモデルを使用してテーブル検索(クエリテーブルが与えられた場合は、集約可能、結合可能、またはクエリテーブルのサブセットである他のテーブルをデータプールで見つけること)を実行し、最先端の技術と比較してF1スコアで大幅な改善を示します。最後に、さまざまなデータセットとタスクにわたってかなりの遷移学習パフォーマンスを示すことで、モデルの一般化能力を実証します。

Takeaways、Limitations

Takeaways:
スケッチベースの事前学習がニューラルネットワークテーブルモデルのデータ発見性能を改善できることを示した。
統合可能、結合可能、サブセット表ペアの識別、および表検索操作で、従来の方法と比較してパフォーマンスの向上を達成しました。
さまざまなデータセットとタスクの優れた遷移学習パフォーマンスにより、モデルの一般化能力を確認しました。
Ablation studyを使用して、各タスクに重要なスケッチを明確に提示します。
Limitations:
本論文で提示されたスケッチベースの事前学習方法の一般化の可能性についてのさらなる研究が必要である。特定のデータセットや操作に過度に適している可能性があります。
実際の大規模データレイク環境でのパフォーマンスとスケーラビリティの評価が不十分です。
さまざまな種類のデータ(非定型データなど)への適用性に関する追加の研究が必要です。
👍