Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Scaling Capability in Token Space: An Analysis of Large Vision Language Model

Created by
  • Haebom
Category
Empty

저자

Tenghui Li, Guoxu Zhou, Xuyang Zhao, Qibin Zhao

개요

본 연구는 대규모 언어 모델(LLM)과 유사하게 시각-언어 모델(VLM)에서도 비전 토큰 수에 따른 예측 가능한 스케일링 행동이 존재하는지 조사합니다. 연구는 비전 토큰 수와 비전 참조 시퀀스 간 거리의 발산 관계를 특징짓는 수학적 프레임워크를 개발했습니다. 이론적 분석을 통해 비전 토큰 수가 적을 때는 sublinear scaling, 많을 때는 linear scaling의 두 가지 스케일링 체제가 존재함을 밝혔습니다. 이는 모델 성능 관계식 S(n) \approx c / n^{\alpha(n)}과 일치하며, 여기서 스케일링 지수는 비전 토큰 표현 간의 상관 관계 구조와 관련됩니다. 여러 시각-언어 벤치마크를 통해 실험적으로 검증한 결과, 모델 성능이 스케일링 관계의 예측과 일치했습니다. 본 연구는 경험적 관찰을 보완하는 이론적 프레임워크를 통해 트랜스포머 기반 VLM에서 비전 토큰 스케일링에 대한 이해를 높였습니다.

시사점, 한계점

시사점:
비전-언어 모델에서도 모델 파라미터 및 학습 데이터와 유사한 방식으로 비전 토큰 수에 따른 예측 가능한 스케일링 행동이 존재함을 발견.
이론적 프레임워크를 통해 비전 토큰 스케일링을 분석하여, sublinear 및 linear scaling regime을 규명.
제안된 스케일링 관계가 다양한 벤치마크에서 실험적으로 검증됨.
VLM 아키텍처 및 훈련 전략 개선을 위한 지침 제공.
한계점:
제안된 프레임워크가 특정 아키텍처 및 데이터셋에 국한될 수 있음.
개별 비전 토큰의 특성 및 상호작용에 대한 상세한 분석 부족.
실제 모델 성능에 영향을 미치는 다른 요인들을 고려하지 않음.
스케일링 지수 α(n)에 대한 정확한 추정 및 해석에 추가적인 연구 필요.
👍