VT-Bench: A Unified Benchmark for Visual-Tabular Multi-Modal Learning

작성자

Haebom

카테고리

Empty

저자

Zi-Yi Jia, Zi-Jian Cheng, Xin-Yue Zhang, Kun-Yang Yu, Zhi Zhou, Yu-Feng Li, Lan-Zhe Guo

💡 개요

본 논문은 의료, 산업 등 중요 분야에서 활용도가 높은 시각-표 형식(visual-tabular) 데이터에 대한 다중모달 학습의 중요성을 강조하며, 이를 위한 최초의 통합 벤치마크인 VT-Bench를 제안합니다. VT-Bench는 9개 도메인에 걸친 14개의 데이터셋과 756,000개 이상의 샘플을 통합하여 시각-표 형식 데이터의 판별 예측 및 생성 추론을 표준화합니다. 다양한 최신 모델들을 평가한 결과, 시각-표 형식 학습이 상당한 도전 과제를 안고 있음을 보여주며, 향후 강력한 다중모달 시각-표 형식 기반 모델 개발을 촉진할 것으로 기대됩니다.

🔑 시사점 및 한계

•

시각-표 형식 다중모달 학습을 위한 최초의 포괄적인 벤치마크를 제시하여 해당 분야 연구를 체계화하고 발전을 가속화할 것입니다.

•

의료와 같이 고부가가치 분야에서 시각-표 형식 모델의 잠재력을 탐색하고 실질적인 적용 가능성을 모색하는 데 기여할 것입니다.

•

현재 벤치마크에 포함된 모델들의 성능 격차가 크고, 시각-표 형식 학습의 복잡성을 고려할 때, 더욱 정교하고 특화된 모델 아키텍처 및 학습 방법론 개발이 필요합니다.

PDF 보기

Made with Slashpage