본 논문은 Vision Language Models (VLMs)의 이미지 이해 능력, 특히 OpenAI의 CLIP과 Google의 SigLIP에 대한 연구를 진행합니다. 연구 결과, VLMs가 기본적인 이미지 변환에 대한 이해가 부족함을 밝히고 있습니다. 이를 위해, Flickr8k 데이터셋에 이미지 변환에 대한 상세 설명을 추가한 증강 데이터셋을 생성하고, 이러한 부족함이 이미지 편집 등의 downstream task에 미치는 영향을 평가하며, 최신 Image2Image 모델들의 간단한 변환에 대한 성능을 분석합니다.