본 연구는 대규모 언어 모델(LLM)과 유사하게 시각-언어 모델(VLM)에서도 비전 토큰 수에 따른 예측 가능한 스케일링 행동이 존재하는지 조사합니다. 연구는 비전 토큰 수와 비전 참조 시퀀스 간 거리의 발산 관계를 특징짓는 수학적 프레임워크를 개발했습니다. 이론적 분석을 통해 비전 토큰 수가 적을 때는 sublinear scaling, 많을 때는 linear scaling의 두 가지 스케일링 체제가 존재함을 밝혔습니다. 이는 모델 성능 관계식 S(n) \approx c / n^{\alpha(n)}과 일치하며, 여기서 스케일링 지수는 비전 토큰 표현 간의 상관 관계 구조와 관련됩니다. 여러 시각-언어 벤치마크를 통해 실험적으로 검증한 결과, 모델 성능이 스케일링 관계의 예측과 일치했습니다. 본 연구는 경험적 관찰을 보완하는 이론적 프레임워크를 통해 트랜스포머 기반 VLM에서 비전 토큰 스케일링에 대한 이해를 높였습니다.