본 논문은 추론 중심의 다중 모달 작업에서의 비전-언어 모델의 성능 향상을 위해, 고품질 및 다양한 훈련 데이터의 부족 문제를 해결하고자 VisualWebInstruct 데이터셋을 제안합니다. 3만 개의 시드 이미지를 기반으로 Google 이미지 검색을 활용하여 70만 개 이상의 웹사이트에서 HTML 데이터를 수집하고, 이를 처리하여 약 90만 개의 질의응답(QA) 쌍(시각적 QA 쌍 40%, 텍스트 기반 QA 쌍 60%)을 구성했습니다. 수학, 물리학, 금융, 화학 등 다양한 분야를 포함하는 이 데이터셋으로 미세 조정된 모델들은 여러 벤치마크에서 상당한 성능 향상을 보였습니다. 특히 MAmmoTH-VL2 모델은 100억 매개변수 클래스에서 MMMU-Pro, MathVerse, DynaMath 등에서 최첨단 성능을 달성했습니다.