본 논문은 의료, 산업 등 중요한 분야에서 활용도가 높지만 연구가 부족했던 시각-표 데이터의 다중 모달 학습을 위한 최초의 통합 벤치마크인 VT-Bench를 제안합니다. VT-Bench는 9개 도메인에 걸쳐 14개의 데이터셋과 75만 개 이상의 샘플을 통합하여 시각-표 데이터의 판별 예측 및 생성 추론 작업을 표준화합니다. 이를 통해 다양한 모델을 평가하고 시각-표 학습의 중요한 과제를 조명하여 향후 강력한 시각-표 다중 모달 기반 모델 개발을 촉진할 것으로 기대됩니다.
🔑 시사점 및 한계
•
시각-표 데이터의 중요성에 비해 상대적으로 부족했던 연구를 활성화하고 표준화된 평가 환경을 제공합니다.
•
다양한 유형의 모델(단일 모달, 시각-표 특화, 범용 VLM, 도구 활용 모델)을 종합적으로 평가하여 시각-표 학습의 현황과 어려움을 명확히 파악할 수 있습니다.
•
기존 연구의 한계를 극복하고 더욱 강력한 시각-표 다중 모달 기반 모델 개발을 위한 중요한 발판을 마련합니다.
•
벤치마크의 데이터셋 다양성 및 규모 확충, 새로운 유형의 시각-표 학습 작업 포함 등 추가적인 연구가 필요합니다.