SMUTF: Schema Matching Using Generative Tags and Hybrid Features
Created by
Haebom
Category
Empty
저자
Yu Zhang, Mei Di, Haozheng Luo, Chenwei Xu, Richard Tzong-Han Tsai
개요
SMUTF (Schema Matching Using Generative Tags and Hybrid Features)는 대규모 표 형태 데이터 스키마 매칭을 위한 새로운 접근 방식입니다. 지도 학습이 오픈 도메인 작업의 성능에 영향을 미치지 않는다는 가정하에 효과적인 크로스 도메인 매칭을 가능하게 합니다. 규칙 기반 특징 엔지니어링, 사전 훈련된 언어 모델, 그리고 생성형 대규모 언어 모델을 독창적으로 결합합니다. 인도주의 교류 언어에서 영감을 받은 혁신적인 적용으로 각 데이터 열에 "생성형 태그"를 사용하여 스키마 매칭의 효율성을 높입니다. SMUTF는 기존의 사전 훈련된 임베딩, 분류 방법 및 생성 모델과 원활하게 작동하는 광범위한 다용성을 보여줍니다. 스키마 매칭을 위한 방대한 공개 데이터셋의 부족을 인식하여 공개 인도주의 데이터에서 HDXSM 데이터셋을 생성하고 오픈 소스로 공개했습니다. 다양한 공개 데이터셋과 새로운 HDXSM 데이터셋에 대한 평가에서 SMUTF는 기존 최첨단 모델을 정확성과 효율성 면에서 능가하여 F1 점수를 11.84%, ROC의 AUC를 5.08% 향상시켰습니다. 코드는 https://github.com/fireindark707/Python-Schema-Matching 에서 이용 가능합니다.