VolDoGer는 시각-언어 과제(이미지 캡션 생성, 시각적 질문 답변, 시각적 함축)를 위한 도메인 일반화를 위한 새로운 데이터셋입니다. 기존의 시각-언어 과제에 대한 도메인 일반화 연구는 적절한 데이터셋 부족으로 제한적이었는데, VolDoGer는 LLM 기반 데이터 주석 기법을 활용하여 이 문제를 해결하고 대규모 데이터셋을 구축했습니다. 다양한 모델들(미세 조정된 모델부터 최신 다중 모달 LLM까지)을 VolDoGer를 통해 평가하여 도메인 일반화 성능을 분석했습니다.