Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

TabDPT: Scaling Tabular Foundation Models on Real Data

Created by
  • Haebom

저자

Junwei Ma, Valentin Thomas, Rasa Hosseinzadeh, Hamidreza Kamkari, Alex Labach, Jesse C. Cresswell, Keyvan Golestan, Guangwei Yu, Anthony L. Caterini, Maksims Volkovs

개요

본 논문은 다양한 도메인에 걸쳐 널리 사용되는 표 형태 데이터의 이질성으로 인해 새로운 데이터셋에 대한 빠른 일반화가 가능한 표 형태 기반 모델(TFM) 개발이 더딘 점을 해결하고자, In-Context Learning(ICL) 기반 검색과 자기 지도 학습을 결합한 TFM 학습 방식을 제안합니다. 대규모 언어 모델을 표 형태 ICL에 적용하려는 기존 연구들의 한계를 극복하고, 표 형태 데이터에 특화된 기반 모델 개발에 집중하여 실제 데이터를 사용한 사전 학습의 효과를 보여줍니다. 실제 데이터를 사용한 사전 학습은 더 빠른 학습과 새로운 데이터에 대한 일반화 성능 향상을 가져오며, 제안된 모델 TabDPT는 회귀(CTR23) 및 분류(CC18) 벤치마크에서 최고 성능을 달성합니다. 또한, 모델 및 데이터 크기 확장이 일관된 성능 향상으로 이어짐을 보여주며, 인터넷 규모의 TFM이 가능함을 시사합니다. 전체 파이프라인(학습 및 추론 코드)은 공개 소스로 제공됩니다.

시사점, 한계점

시사점:
ICL 기반 검색과 자기 지도 학습 결합을 통한 효과적인 TFM 학습 방법 제시
실제 데이터 기반 사전 학습의 중요성과 그 효과 증명 (빠른 학습 및 향상된 일반화 성능)
TabDPT 모델의 우수한 성능 (CTR23, CC18 벤치마크 최고 성능 달성)
모델 및 데이터 크기 확장에 따른 일관된 성능 향상 확인 및 인터넷 규모 TFM 가능성 제시
전체 파이프라인 공개를 통한 연구 재현성 및 확장성 증대
한계점:
본 논문에서 제시된 접근 방식의 특정 데이터 유형 또는 도메인에 대한 일반화 성능 한계는 추가 연구가 필요.
실제 데이터 사용의 이점을 명확히 밝히고 있지만, 실제 데이터의 다양성 및 품질에 따른 성능 변화에 대한 분석이 부족.
대규모 TFM 개발 가능성을 제시하지만, 실제 인터넷 규모 데이터를 활용한 실험 결과는 제시되지 않음.
👍