본 논문은 다중 모달 대규모 언어 모델(MLLM)의 성공이 대규모 훈련 데이터에 크게 의존하지만, 개인정보 보호 문제로 많은 MLLM의 훈련 데이터가 공개되지 않고, 다중 모달 데이터 수집의 어려움이 문제를 더욱 악화시킨다는 점을 지적합니다. 이에 따라 다양성과 품질을 유지하면서 자동으로 다중 모달 훈련 데이터를 합성하는 새로운 방법인 Oasis를 제안합니다. Oasis는 이미지만을 MLLM에 입력하여 기존 방법보다 데이터 다양성을 크게 확장하고, 엄격한 품질 관리 기법을 통해 데이터 품질을 보장합니다. 50만 개 이상의 데이터를 수집하여 LLaVA-NeXT에 대한 증분 실험을 수행한 결과, MLLM의 성능을 크게 향상시키는 것을 실험적으로 증명하였으며, 이미지 기반 합성을 통해 MLLM의 특정 영역 능력에 집중할 수 있음을 보여줍니다. 코드와 데이터는 공개될 예정입니다.