본 논문은 이미지 형태로 제시된 다중 표 데이터에 대한 강력한 해석 및 추론 능력이 부족한 기존 Vision-Language Model (VLM)의 한계를 해결하기 위해 새로운 벤치마크인 MTabVQA를 제안합니다. MTabVQA는 여러 개의 시각적으로 렌더링된 표 이미지를 통한 다단계 추론을 필요로 하는 3,745개의 복잡한 질문-응답 쌍으로 구성됩니다. 논문에서는 최첨단 VLM에 대한 MTabVQA 벤치마크 결과를 제시하여, 기존 모델의 성능 한계를 보여주고, 이러한 추론 능력을 향상시키기 위한 사후 훈련 기법과 대규모 instruction-tuning 데이터셋인 MTabVQA-Instruct를 소개합니다. 실험 결과, MTabVQA-Instruct를 사용하여 VLM을 미세 조정하면 시각적 다중 표 추론 성능이 크게 향상됨을 보여줍니다. 데이터셋과 코드는 공개적으로 제공됩니다.