MC-LLaVA: Multi-Concept Personalized Vision-Language Model
Created by
Haebom
Category
Empty
저자
Ruichuan An, Sihan Yang, Ming Lu, Renrui Zhang, Kai Zeng, Yulin Luo, Jiajun Cao, Hao Liang, Ying Chen, Qi She, Shanghang Zhang, Wentao Zhang
개요
본 논문은 기존의 단일 개념 기반 시각 언어 모델(VLM) 개인화의 한계를 극복하고, 다중 개념을 고려한 개인화를 위한 새로운 패러다임인 MC-LLaVA를 제시합니다. MC-LLaVA는 다중 개념 지시어 미세조정 전략을 통해 여러 개념을 효과적으로 통합하고, 개인화된 텍스트 프롬프트와 시각 프롬프트를 활용하여 훈련 비용을 줄이고 인식 및 접지 능력을 향상시킵니다. 또한, 다양한 다중 개념 시나리오를 포함하는 고품질 지시어 미세조정 데이터셋을 공개합니다. 실험 결과, MC-LLaVA는 인상적인 다중 개념 개인화 응답을 달성하여 사용자 맞춤형 VLM 어시스턴트 개발에 기여합니다.