# MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

### 저자

Wall Kim, Chaeyoung Song, Hanul Kim

### 💡 개요

기존 TabPFN은 테이블형 데이터에는 효과적이었으나 이미지, 텍스트와 같은 이질적인 모달리티를 통합하는 데 어려움을 겪었습니다. 본 논문은 이러한 문제를 해결하기 위해 멀티모달 데이터에 대한 사전 학습된 모델을 확장한 Multi-Modal Prior-data Fitted Network (MMPFN)을 제안합니다. MMPFN은 각 모달리티별 인코더, 모달리티 프로젝터, 사전 학습된 모델을 사용하여 테이블형 데이터와 비 테이블형 데이터를 통합 처리하며, 특히 멀티 헤드 게이트 MLP와 크로스 어텐션 풀러를 통해 비 테이블형 입력으로부터 풍부한 컨텍스트를 추출하고 어텐션 불균형 문제를 완화합니다.

### 🔑 시사점 및 한계

- 다양한 도메인(의료, 마케팅 등)에서 흔히 발생하는 테이블형 데이터와 비 테이블형 데이터(이미지, 텍스트 등)를 통합하여 학습하는 효과적인 프레임워크를 제시합니다.

- 제안된 모달리티 프로젝터 및 어텐션 메커니즘은 멀티모달 학습에서 발생하는 컨텍스트 추출 및 어텐션 불균형 문제를 효과적으로 해결합니다.

- 멀티모달 데이터셋에 대한 광범위한 실험에서 기존 최신 방법론 대비 우수한 성능을 보여주며, 테이블형 특징과 비 테이블형 모달리티를 효과적으로 활용할 수 있음을 입증했습니다.

- 향후 연구에서는 다양한 모달리티 유형에 대한 추가적인 확장 및 최적화, 그리고 실제 적용 시 발생할 수 있는 다양한 데이터 불균형 문제에 대한 해결 방안 모색이 필요합니다.

[PDF 보기](https://arxiv.org/pdf/2602.20223)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
