VT-Bench: A Unified Benchmark for Visual-Tabular Multi-Modal Learning

Author

Haebom

저자

Zi-Yi Jia, Zi-Jian Cheng, Xin-Yue Zhang, Kun-Yang Yu, Zhi Zhou, Yu-Feng Li, Lan-Zhe Guo

💡 개요

본 논문은 의료, 산업 등 중요한 분야에서 활용도가 높지만 연구가 부족했던 시각-표 데이터의 다중 모달 학습을 위한 최초의 통합 벤치마크인 VT-Bench를 제안합니다. VT-Bench는 9개 도메인에 걸쳐 14개의 데이터셋과 75만 개 이상의 샘플을 통합하여 시각-표 데이터의 판별 예측 및 생성 추론 작업을 표준화합니다. 이를 통해 다양한 모델을 평가하고 시각-표 학습의 중요한 과제를 조명하여 향후 강력한 시각-표 다중 모달 기반 모델 개발을 촉진할 것으로 기대됩니다.

🔑 시사점 및 한계

•

시각-표 데이터의 중요성에 비해 상대적으로 부족했던 연구를 활성화하고 표준화된 평가 환경을 제공합니다.

•

다양한 유형의 모델(단일 모달, 시각-표 특화, 범용 VLM, 도구 활용 모델)을 종합적으로 평가하여 시각-표 학습의 현황과 어려움을 명확히 파악할 수 있습니다.

•

기존 연구의 한계를 극복하고 더욱 강력한 시각-표 다중 모달 기반 모델 개발을 위한 중요한 발판을 마련합니다.

•

벤치마크의 데이터셋 다양성 및 규모 확충, 새로운 유형의 시각-표 학습 작업 포함 등 추가적인 연구가 필요합니다.

PDF 보기

Made with Slashpage