본 논문은 대규모 비전-언어 모델(LVLM)의 훈련 데이터에서 나타나는 긴꼬리(Long-Tail) 문제를 해결하기 위한 적응형 데이터 개선 프레임워크(ADR)를 제안한다. 기존 연구들이 주로 CLIP이나 ViT와 같은 전통적인 VLM 아키텍처와 특정 과제(인식, 분류)에 초점을 맞춘 것과 달리, 본 논문은 LLaVA와 같은 LVLM과 시각적 질의응답, 시각적 추론 등 더 일반적인 과제에 대한 긴꼬리 문제를 분석한다. ADR은 데이터 재균형(DR)과 데이터 합성(DS) 두 단계로 구성되며, DR 단계에서는 엔티티 분포를 기반으로 중복 데이터를 적응적으로 재균형하고, DS 단계에서는 DDPM을 활용하여 부족한 데이터를 보충한다. 실험 결과, ADR은 11개의 벤치마크에서 LLaVA 1.5의 평균 성능을 4.36% 향상시키는 것을 보여주었다. 훈련 데이터 양을 늘리지 않고도 성능 향상을 이루었다는 점이 특징이다.