Oasis: One Image is All You Need for Multimodal Instruction Data Synthesis
Created by
Haebom
저자
Letian Zhang, Quan Cui, Bingchen Zhao, Cheng Yang
개요
본 논문은 다중 모드 대규모 언어 모델(MLLMs)의 성공이 대규모 훈련 데이터에 크게 의존하지만, 개인 정보 보호 문제로 많은 MLLMs의 훈련 데이터가 공개되지 않고, 다중 모달 데이터 수집의 어려움이 문제를 더욱 악화시킨다는 점을 지적합니다. 이에 따라 다양성과 품질을 유지하면서 다중 모달 훈련 데이터를 자동으로 합성하는 새로운 방법인 Oasis를 제안합니다. Oasis는 이미지만을 MLLMs에 프롬프트하여 기존 방법의 한계를 극복하고 데이터 다양성을 크게 확장합니다. 또한 엄격한 품질 관리 방법을 통해 데이터 품질을 보장합니다. 50만 개 이상의 데이터를 수집하여 LLaVA-NeXT에 대한 증분 실험을 수행한 결과, MLLMs의 성능을 크게 향상시킬 수 있음을 보여줍니다. 이미지 기반 합성을 통해 MLLMs의 특정 영역 능력에 집중할 수 있습니다. 코드와 데이터셋은 https://github.com/Letian2003/MM_INF 에서 공개적으로 이용 가능합니다.