CG-VLM : Constrastive Vision-Language Alignment maskes Efficient Instruction Learner
논문명 : Constrastive Vision-Language Alignment maskes Efficient Instruction Learner 링크 : https://arxiv.org/abs/2311.17945 출간일 : 2023.11.29 저자 : Lizhao Liu, Xinyu Sun, Tianhang Xiang, Zhuangwei Zhuang, Liuren Yin, Mingkui Tan, 소속 : South China University of Technology, PengCheng Laboratory, Duke University 인용 수 : 1 코드 : https://github.com/lizhaoliu-Lec/CG-VLM (coming soon..) Abstract 주제 : LLM 모델을 vision-language instruction-following 모델로 확장 = LLM이 이미지를 더 효과적으로 이해하고 처리할 수 있게끔 한다 Challenge 텍스트만 학습된 LLM에 어떻게 이미지 정보를 효과적으로 학습시키는가 핵심 Task ViT와 LLM 간의 표현을 최대한 일치시키기 Generative image caption loss를 활용하여 Visual adapter 학습 → 이미지 세부 사항을 학습하기 어려움 ViT와 LLM의 표현을 최대한 일치시켜 세부적인 연관성에 대해 학습한다 → Contrastive + Generative → 이미지 patch 수준의 특징과 텍스트 토큰 수준의 임베딩 정렬 Image-caption dataset에서 패치-토큰 관계가 제공되지 않음 → 이미지 패치 특징과 텍스트 토큰 임베딩 간의 평균 유사도 최대화 Introduction 기존 연구 pre-trained ViT와 LLM을 결합하여 복잡한 비전 지시 작업을 수행 (CLIP의 pre-trained ViT를 주로 이용) Image-Text 정렬 단계가 필수적, vision adapter를 학습하여 정렬
- 최윤진최



3