TinyAlign: Boosting Lightweight Vision-Language Models by Mitigating Modal Alignment Bottlenecks
Created by
Haebom
저자
Yuanze Hu, Zhaoxin Fan, Xinyu Wang, Gen Li, Ye Qiu, Zhichao Yang, Wenjun Wu, Kejian Wu, Yifan Sun, Xiaotie Deng, Jin Dong
개요
본 논문은 자원 제약 환경에서 필수적인 경량 비전-언어 모델(VLMs)의 성능 향상에 초점을 맞추고 있습니다. 기존의 비전 및 언어 모델 정렬 방법은 비전 인코더와 언어 모델을 고정하고 작은 연결 모듈만 학습시키는 방식으로, 언어 모델의 표현 능력에 크게 의존하여 경량 모델의 경우 성능 저하를 야기합니다. 본 연구는 상호 정보량(Mutual Information) 관점에서 이러한 정렬 병목 현상을 분석하여 언어 모델의 제한된 용량이 다중 모달 입력과 출력 간의 유효 상호 정보량(EMI)을 제한함으로써 정렬 품질을 저해함을 밝힙니다. 이를 해결하기 위해, 본 논문은 Retrieval-Augmented Generation에서 영감을 받은 새로운 프레임워크인 TinyAlign을 제안합니다. TinyAlign은 메모리 뱅크에서 관련 맥락을 전략적으로 검색하여 다중 모달 입력을 풍부하게 하고 정렬을 향상시킵니다. 실험 결과, TinyAlign은 학습 손실을 크게 줄이고, 수렴 속도를 높이며, 작업 성능을 향상시키는 것으로 나타났습니다. 특히, 기존 성능을 40%의 미세 조정 데이터만으로 달성하여 뛰어난 데이터 효율성을 보여줍니다. 따라서 본 연구는 제한된 다중 모달 시스템에서 정렬 병목 현상을 이해하고 해결하는 새로운 이론적 관점을 제시하며, 더욱 능력 있는 경량 VLMs를 개발하는 실용적인 방법을 제공합니다.
시사점, 한계점
•
시사점:
◦
경량 VLM의 성능 향상을 위한 새로운 프레임워크 TinyAlign 제안
◦
상호 정보량을 이용한 VLM 정렬 병목 현상 분석 및 해결 방안 제시
◦
메모리 뱅크를 활용한 Retrieval-Augmented Generation 기법의 효과 입증