# VisTabNet: Adapting Vision Transformers for Tabular Data

### 저자

Witold Wydmanski, Ulvi Movsum-zada, Jacek Tabor, Marek Smieja

### 개요

본 논문은 심층 학습 모델이 자연어 처리 및 컴퓨터 비전 분야에서 큰 성공을 거두었지만, 생물학, 산업 및 금융 응용 분야에서 가장 일반적으로 사용되는 데이터 유형인 표 형식 데이터에는 비슷한 개선이 관찰되지 않는다는 문제를 제기합니다. 특히, 대규모 사전 훈련된 모델을 작은 표 형식 데이터셋에 정의된 하위 작업으로 전이하는 것은 어렵습니다. 이를 해결하기 위해, 본 논문에서는 사전 훈련된 가중치를 사용하여 비전 트랜스포머(ViT)를 표 형식 데이터 처리에 적용할 수 있는 교차 모달 전이 학습 방법인 VisTabNet을 제안합니다. 표 형식 입력을 ViT에서 허용하는 패치 임베딩으로 투영하여 사전 훈련된 트랜스포머 인코더를 표 형식 입력에 직접 적용할 수 있습니다. 이 접근 방식은 표 형식 데이터 처리를 위한 적절한 아키텍처를 설계하는 개념적 비용을 제거하는 동시에 모델을 처음부터 훈련하는 계산 비용을 줄입니다. 여러 개의 작은 표 형식 데이터셋(1,000개 미만의 샘플)에 대한 실험 결과는 VisTabNet이 기존의 앙상블 방법과 최근의 심층 학습 모델보다 우수함을 보여줍니다. 제안된 방법은 기존의 전이 학습 관행을 넘어서 사전 훈련된 이미지 모델을 사용하여 표 형식 문제를 해결할 수 있음을 보여주며, 전이 학습의 경계를 확장합니다.  구현 예시는 [https://github.com/wwydmanski/VisTabNet](https://github.com/wwydmanski/VisTabNet) 에서 공개됩니다.

[GitHub - wwydmanski/VisTabNet: Code for "VisTabNet: Adapting Vision Transformers for Tabular Data"](https://github.com/wwydmanski/VisTabNet)

### 시사점, 한계점

- **시사점:**

    - 사전 훈련된 비전 트랜스포머 모델을 표 형식 데이터 분석에 적용하는 새로운 방법 제시.

    - 기존의 표 형식 데이터 분석 방법보다 우수한 성능을 보임.

    - 작은 표 형식 데이터셋에서의 전이 학습 문제 해결에 기여.

    - 전이 학습의 범위를 이미지 모델에서 표 형식 데이터로 확장.

- **한계점:**

    - 제시된 방법의 성능이 데이터셋 크기에 따라 달라질 수 있음. (1000개 미만의 작은 데이터셋에 집중)

    - 다양한 유형의 표 형식 데이터에 대한 일반화 성능 평가가 추가적으로 필요.

    - VisTabNet의 패치 임베딩 전략이 특정 유형의 표 형식 데이터에 최적화되어 있을 가능성.

    - 다른 전이 학습 방법과의 비교 분석이 더욱 심도 있게 필요할 수 있음.

[PDF 보기](https://arxiv.org/pdf/2501.00057)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).