TabDPT: Scaling Tabular Foundation Models on Real Data
Created by
Haebom
저자
Junwei Ma, Valentin Thomas, Rasa Hosseinzadeh, Hamidreza Kamkari, Alex Labach, Jesse C. Cresswell, Keyvan Golestan, Guangwei Yu, Anthony L. Caterini, Maksims Volkovs
개요
본 논문은 다양한 도메인에 걸쳐 널리 사용되는 표 형태 데이터의 이질성으로 인해 새로운 데이터셋에 대한 빠른 일반화가 가능한 표 형태 기반 모델(TFM) 개발이 더딘 점을 해결하고자, In-Context Learning(ICL) 기반 검색과 자기 지도 학습을 결합한 TFM 학습 방식을 제안합니다. 대규모 언어 모델을 표 형태 ICL에 적용하려는 기존 연구들의 한계를 극복하고, 표 형태 데이터에 특화된 기반 모델 개발에 집중하여 실제 데이터를 사용한 사전 학습의 효과를 보여줍니다. 실제 데이터를 사용한 사전 학습은 더 빠른 학습과 새로운 데이터에 대한 일반화 성능 향상을 가져오며, 제안된 모델 TabDPT는 회귀(CTR23) 및 분류(CC18) 벤치마크에서 최고 성능을 달성합니다. 또한, 모델 및 데이터 크기 확장이 일관된 성능 향상으로 이어짐을 보여주며, 인터넷 규모의 TFM이 가능함을 시사합니다. 전체 파이프라인(학습 및 추론 코드)은 공개 소스로 제공됩니다.
시사점, 한계점
•
시사점:
◦
ICL 기반 검색과 자기 지도 학습 결합을 통한 효과적인 TFM 학습 방법 제시
◦
실제 데이터 기반 사전 학습의 중요성과 그 효과 증명 (빠른 학습 및 향상된 일반화 성능)
◦
TabDPT 모델의 우수한 성능 (CTR23, CC18 벤치마크 최고 성능 달성)
◦
모델 및 데이터 크기 확장에 따른 일관된 성능 향상 확인 및 인터넷 규모 TFM 가능성 제시
◦
전체 파이프라인 공개를 통한 연구 재현성 및 확장성 증대
•
한계점:
◦
본 논문에서 제시된 접근 방식의 특정 데이터 유형 또는 도메인에 대한 일반화 성능 한계는 추가 연구가 필요.
◦
실제 데이터 사용의 이점을 명확히 밝히고 있지만, 실제 데이터의 다양성 및 품질에 따른 성능 변화에 대한 분석이 부족.
◦
대규모 TFM 개발 가능성을 제시하지만, 실제 인터넷 규모 데이터를 활용한 실험 결과는 제시되지 않음.