본 논문은 Vision Language Models (VLMs)의 이미지 수준 이해 능력, 특히 OpenAI의 CLIP과 Google의 SigLIP에 대한 연구를 다룹니다. 연구 결과, VLMs는 다양한 이미지 변환에 대한 이해가 부족하다는 것을 밝혔습니다. 이를 위해 연구진은 Flickr8k 데이터셋에 변환 정보가 포함된 증강 버전을 생성하고, 이미지 편집과 같은 downstream task에서의 부족함을 평가하며, state-of-the-art Image2Image 모델의 간단한 변환 수행 능력을 평가했습니다.