본 논문은 GPT-4o, o4-mini, Gemini 1.5 Pro, Gemini 2.0 Flash, Claude 3.5 Sonnet, Qwen2-VL, Llama 3.2 등 인기 다중 모달 기반 모델들의 컴퓨터 비전 과제(의미 분할, 객체 탐지, 이미지 분류, 깊이 및 표면 법선 예측) 수행 능력을 COCO, ImageNet 등의 표준 데이터셋을 사용하여 벤치마킹했습니다. 모델들이 텍스트 출력에 최적화되어 있고, 많은 모델이 API 접근만 허용되는 점을 고려하여 프롬프트 체이닝을 통해 표준 비전 과제를 텍스트 프롬프트 기반 과제로 변환하는 표준화된 벤치마킹 프레임워크를 구축했습니다. 결과적으로, 기존 전문 모델에는 미치지 못하지만 다양한 과제에서 상당한 성능을 보이며, 특히 의미론적 과제에서 기하학적 과제보다 더 나은 성능을 보였습니다. GPT-4o가 비 추론 모델 중 가장 우수한 성능을 보였고, 추론 모델은 기하학적 과제에서 성능 향상을 보였으나, 이미지 생성 기능을 갖춘 최신 GPT-4o는 환각 및 공간 정렬 오류와 같은 문제점을 보였습니다.