Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

How Well Does GPT-4o Understand Vision? Evaluating Multimodal Foundation Models on Standard Computer Vision Tasks

Created by
  • Haebom

저자

Rahul Ramachandran, Ali Garjani, Roman Bachmann, Andrei Atanov, O\u{g}uzhan Fatih Kar, Amir Zamir

개요

본 논문은 GPT-4o, o4-mini, Gemini 1.5 Pro, Gemini 2.0 Flash, Claude 3.5 Sonnet, Qwen2-VL, Llama 3.2 등 인기 다중 모달 기반 모델들의 컴퓨터 비전 과제(의미 분할, 객체 탐지, 이미지 분류, 깊이 및 표면 법선 예측) 수행 능력을 COCO, ImageNet 등의 표준 데이터셋을 사용하여 벤치마킹했습니다. 모델들이 텍스트 출력에 최적화되어 있고, 많은 모델이 API 접근만 허용되는 점을 고려하여 프롬프트 체이닝을 통해 표준 비전 과제를 텍스트 프롬프트 기반 과제로 변환하는 표준화된 벤치마킹 프레임워크를 구축했습니다. 결과적으로, 기존 전문 모델에는 미치지 못하지만 다양한 과제에서 상당한 성능을 보이며, 특히 의미론적 과제에서 기하학적 과제보다 더 나은 성능을 보였습니다. GPT-4o가 비 추론 모델 중 가장 우수한 성능을 보였고, 추론 모델은 기하학적 과제에서 성능 향상을 보였으나, 이미지 생성 기능을 갖춘 최신 GPT-4o는 환각 및 공간 정렬 오류와 같은 문제점을 보였습니다.

시사점, 한계점

시사점:
다중 모달 기반 모델이 이미지-텍스트 기반 학습에도 불구하고 다양한 컴퓨터 비전 과제에서 상당한 일반화 능력을 보임.
의미론적 과제에 대한 성능이 기하학적 과제보다 우수함을 확인.
프롬프트 엔지니어링 및 추론 모델의 활용을 통해 성능 향상 가능성 제시.
GPT-4o를 포함한 최신 다중 모달 모델의 잠재력 확인.
한계점:
다중 모달 기반 모델의 성능이 전문 컴퓨터 비전 모델에 비해 현저히 낮음.
프롬프트 체이닝 기법에 대한 의존도가 높고, 프롬프트 변화에 민감하게 반응.
이미지 생성 기능을 갖춘 모델에서 환각 및 공간 정렬 오류와 같은 문제 발생.
API 접근 제한으로 인한 모델의 완전한 성능 평가 어려움.
👍