Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models
논문명 : Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models 링크 : https://arxiv.org/pdf/2312.06109 출간일 : 2023.12 출간 학회 : Springer 저자 : Haoran Wei1∗ , Lingyu Kong2∗, Jinyue Chen2, Liang Zhao1, Zheng Ge1†, Jinrong Yang3, Jianjian Sun1, Chunrui Han1, Xiangyu Zhang1 소속 : MEGVII Technology 2University of Chinese Academy of Sciences 3Huazhong University of Science and Technology 인용 수 : 48 코드 : https://github.com/Ucas-HaoranWei/Vary https://varybase.github.io/ Wei, Haoran, et al. "Vary: Scaling up the vision vocabulary for large vision-language model." European Conference on Computer Vision. Springer, Cham, 2025. Abstract 대부분의 LVLM 은 Vision Vocabulary(Vision Encoder) 로 CLIP 을 사용. 하지만 Document OCR, Chat Understanding 과 같은 dense vision perception 이 필요한 태스크의 경우에 CLIP 은 충분하지 않음. 특히 non english document, high resolution image, chart understanding 를 다루는 경우 out of vocabulary problem 을 보임 제안 아키텍쳐 : Vary an efficient and effective method to scale up the Vision vocabulary of LVLMs. Vision Vocabulary 를 효율적이고 효과적으로 스케일업 Vary 학습은 generation, integration 두 과정으로 진행됨 generation a new vision vocabulary vocabulary network + tiny decoder only transformer 를 이용해서 auto-regression train
2