본 논문은 추론 중심의 다중 모드 작업에서 비전-언어 모델(VLMs)의 성능 향상을 위한 새로운 데이터셋인 VisualWebInstruct을 제안합니다. 기존 VLMs의 추론 능력 향상에 있어 고품질 다양한 훈련 데이터의 부족 문제를 해결하기 위해, 3만 장의 씨앗 이미지를 기반으로 Google 이미지 검색을 활용하여 70만 개 이상의 고유 URL에서 HTML을 수집하고 처리했습니다. 이를 통해 약 90만 개의 질문-답변 쌍 (40%는 시각적 QA 쌍, 나머지는 텍스트 QA 쌍)으로 구성된 데이터셋을 구축했습니다. VisualWebInstruct으로 미세 조정된 모델은 Llava-OV-mid 기반 모델에서 10~20%의 절대 성능 향상, MAmmoTH-VL 기반 모델에서 5%의 절대 성능 향상을 보였으며, MAmmoTH-VL2 모델은 MMMU-Pro-std(40.7%), MathVerse(42.6%), DynaMath(55.7%)에서 최첨단 성능을 달성했습니다. 이는 VisualWebInstruct 데이터셋이 복잡한 다중 모드 작업에서 VLMs의 추론 능력 향상에 효과적임을 보여줍니다.