Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

How Well Does GPT-4o Understand Vision? Evaluating Multimodal Foundation Models on Standard Computer Vision Tasks

Created by
  • Haebom

저자

Rahul Ramachandran, Ali Garjani, Roman Bachmann, Andrei Atanov, O\u{g}uzhan Fatih Kar, Amir Zamir

개요

본 논문은 GPT-4o, o4-mini, Gemini 1.5 Pro, Gemini 2.0 Flash, Claude 3.5 Sonnet, Qwen2-VL, Llama 3.2 등 인기 있는 다중 모달 기반 모델들의 컴퓨터 비전 과제(세분화된 의미 분석, 객체 탐지, 이미지 분류, 깊이 및 표면 법선 예측) 수행 능력을 COCO, ImageNet 등의 표준 데이터셋을 사용하여 벤치마킹했습니다. 모델들이 본래 텍스트 출력에 최적화되어 있고, 일부는 API 접근만 가능하다는 어려움을 프롬프트 체이닝을 통해 극복하여 표준화된 벤치마킹 프레임워크를 구축했습니다. 결과적으로, 이들 모델은 전문적인 컴퓨터 비전 모델에는 미치지 못하지만, 주로 이미지-텍스트 기반으로 학습되었음에도 불구하고 상당한 일반화 능력을 보였으며, 의미 관련 과제에서 기하학적 과제보다 더 나은 성능을 보였습니다. GPT-4o는 비추론 모델 중 가장 우수한 성능을 보였고, 추론 모델은 기하학적 과제에서 성능 향상을 보였습니다. 하지만, GPT-4o와 같이 이미지 생성 기능을 갖춘 모델은 환각이나 공간적 정렬 오류와 같은 문제점을 보였습니다.

시사점, 한계점

시사점:
다중 모달 기반 모델들이 이미지-텍스트 기반 학습만으로도 컴퓨터 비전 과제에서 상당한 일반화 능력을 보임을 확인.
프롬프트 엔지니어링을 통해 다중 모달 모델을 컴퓨터 비전 과제에 적용할 수 있는 가능성 제시.
모델의 성능 차이와 강점/약점 분석을 통해 향후 모델 개발 방향 제시 (예: 기하학적 과제 성능 향상, 환각 및 공간적 오류 해결).
GPT-4o를 포함한 최신 다중 모달 모델의 컴퓨터 비전 성능에 대한 기준점 제시.
한계점:
벤치마킹에 사용된 모델들이 모두 최신 모델이 아니거나, 일부는 API 접근만 가능하여 성능 평가에 제약 존재.
프롬프트 체이닝 기법이 모델 성능에 영향을 미치므로, 결과 해석에 주의가 필요.
이미지 생성 기능을 갖춘 모델의 환각 및 공간적 정렬 오류 문제는 추가적인 연구가 필요.
다양한 컴퓨터 비전 과제에 대한 포괄적인 평가가 아닌, 제한된 과제에 대한 평가만 수행.
👍