MoVE-KD: Knowledge Distillation for VLMs with Mixture of Visual Encoders
Created by
Haebom
Category
Empty
저자
Jiajun Cao, Yuan Zhang, Tao Huang, Ming Lu, Qizhe Zhang, Ruichuan An, Ningning MA, Shanghang Zhang
개요
본 논문은 여러 비전 인코더의 장점을 하나의 효율적인 인코더로 증류하는 새로운 프레임워크인 Mixture-of-Visual-Encoder Knowledge Distillation (MoVE-KD)를 제시합니다. 기존의 여러 인코더를 사용하는 VLM(Vision-Language Model)의 높은 계산 비용 문제를 해결하기 위해, 저랭크 적응(LoRA)과 전문가 혼합(MoE)을 사용하여 입력 특징에 따라 특정 지식을 선택적으로 활성화함으로써 각 티처 인코더의 고유한 특징을 유지하고 적응성과 효율성을 향상시킵니다. 또한, 어텐션 기반 증류 전략을 통해 각 인코더의 가중치를 조정하고 중요한 시각 토큰을 강조하여 여러 티처로부터 포괄적이지만 서로 다른 특징을 복제하는 부담을 줄입니다. LLaVA와 LLaVA-NeXT와 같은 VLM에 대한 실험을 통해 방법의 효과를 검증하였으며, 코드는 깃허브에 공개되어 있습니다.
시사점, 한계점
•
시사점:
◦
다양한 비전 인코더의 강점을 하나의 효율적인 인코더로 통합하여 VLM의 계산 비용을 절감할 수 있습니다.
◦
LoRA와 MoE를 활용하여 각 인코더의 특징을 효과적으로 유지하고 적응성을 높였습니다.
◦
어텐션 기반 증류 전략을 통해 증류 과정을 효율화하고 성능을 향상시켰습니다.
◦
LLaVA, LLaVA-NeXT 등 다양한 VLM에서 효과를 검증했습니다.
◦
공개된 코드를 통해 재현성을 확보했습니다.
•
한계점:
◦
제안된 방법의 일반화 성능에 대한 추가적인 연구가 필요합니다.
◦
다양한 크기와 유형의 비전 인코더에 대한 실험이 추가적으로 필요할 수 있습니다.
◦
특정 비전 인코더의 조합에 최적화되어 있을 가능성이 있으며, 다른 조합에 대한 성능이 보장되지 않을 수 있습니다.