Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

A Survey of State of the Art Large Vision Language Models: Alignment, Benchmark, Evaluations and Challenges

Created by
  • Haebom
Category
Empty

저자

Zongxia Li, Xiyang Wu, Hongyang Du, Huy Nghiem, Guangyao Shi

개요

본 논문은 컴퓨터 비전과 자연어 처리의 교차점에 있는 혁신적인 기술인 다중 모달 비전 언어 모델(VLMs)에 대한 체계적인 개관을 제공합니다. CLIP, Claude, GPT-4V와 같은 모델들이 시각 및 텍스트 데이터에 대한 강력한 추론 및 이해 능력을 보여주고 제로샷 분류에서 기존의 단일 모달 비전 모델들을 능가함에도 불구하고, VLMs에 대한 기존 연구의 종합적인 조사가 부족합니다. 본 논문은 지난 5년(2019-2024) 동안 개발된 주요 VLMs의 모델 정보, 주요 아키텍처 및 훈련 방법, 인기 있는 벤치마크 및 평가 지표의 요약 및 분류, 구현 에이전트, 로보틱스 및 비디오 생성을 포함한 VLMs의 응용 분야, 환각, 공정성 및 안전성과 같은 현재 VLMs가 직면한 과제 및 문제점 등을 다룹니다. 자세한 논문 및 모델 저장소 링크는 https://github.com/zli12321/Vision-Language-Models-Overview 에서 확인할 수 있습니다.

시사점, 한계점

시사점: VLMs의 아키텍처, 훈련 방법, 벤치마크, 응용 분야, 그리고 당면 과제에 대한 종합적인 이해를 제공하여, VLMs 연구 및 응용에 대한 포괄적인 지침을 제시합니다. 특정 도메인에서 VLMs를 활용하려는 연구자들에게 유용한 정보를 제공합니다.
한계점: 본 논문에서 다루는 VLMs의 범위가 제한적일 수 있으며, VLMs 분야의 급속한 발전으로 인해 최신 연구 동향을 완전히 반영하지 못할 수 있습니다. 또한, 각 VLMs의 성능 비교에 대한 심층적인 분석이 부족할 수 있습니다.
👍