본 논문은 다양한 작업(검색, 캡션 생성, 추론)에 걸쳐 다양한 데이터셋에서 CLIP, BLIP, LXMERT와 같은 비전-언어 모델(VLMs)의 성능 일관성을 벤치마킹합니다. 작업 정확도, 생성 품질, 효율성, 그리고 새롭게 제안된 교차 데이터셋 일관성(CDC) 지표를 포함한 평가를 통해 CLIP은 가장 강력한 일반화 성능(CDC: 0.92)을 보이며, BLIP은 정제된 데이터에서 뛰어난 성능을, LXMERT는 구조화된 추론에서 우수한 성능을 나타냅니다. 이러한 결과는 일반화와 특수화 간의 트레이드오프를 보여주며, VLMs의 산업적 배포 및 강력하고 작업에 유연한 아키텍처를 향한 개발을 안내합니다.