본 논문은 GPT-4o, o4-mini, Gemini 1.5 Pro, Gemini 2.0 Flash, Claude 3.5 Sonnet, Qwen2-VL, Llama 3.2 등 인기 있는 다중 모달 기반 모델들의 컴퓨터 비전 과제(세분화된 의미 분석, 객체 탐지, 이미지 분류, 깊이 및 표면 법선 예측) 수행 능력을 COCO, ImageNet 등의 표준 데이터셋을 사용하여 벤치마킹했습니다. 모델들이 본래 텍스트 출력에 최적화되어 있고, 일부는 API 접근만 가능하다는 어려움을 프롬프트 체이닝을 통해 극복하여 표준화된 벤치마킹 프레임워크를 구축했습니다. 결과적으로, 이들 모델은 전문적인 컴퓨터 비전 모델에는 미치지 못하지만, 주로 이미지-텍스트 기반으로 학습되었음에도 불구하고 상당한 일반화 능력을 보였으며, 의미 관련 과제에서 기하학적 과제보다 더 나은 성능을 보였습니다. GPT-4o는 비추론 모델 중 가장 우수한 성능을 보였고, 추론 모델은 기하학적 과제에서 성능 향상을 보였습니다. 하지만, GPT-4o와 같이 이미지 생성 기능을 갖춘 모델은 환각이나 공간적 정렬 오류와 같은 문제점을 보였습니다.