Concept-as-Tree: A Controllable Synthetic Data Framework Makes Stronger Personalized VLMs
Created by
Haebom
Category
Empty
저자
Ruichuan An, Kai Zeng, Ming Lu, Sihan Yang, Renrui Zhang, Huitong Ji, Hao Liang, Wentao Zhang
개요
Vision-Language Models (VLMs)의 개인화 능력을 향상시키기 위해, 사용자 제공 개념을 통합하는 방법을 연구하고, 긍정 및 부정 샘플의 양과 다양성이 모델 성능에 미치는 영향을 분석합니다. 긍정 샘플 부족과 부정 샘플의 낮은 품질 문제를 해결하기 위해, 개념을 트리 구조로 표현하는 Concept-as-Tree (CaT)를 제안합니다. CaT는 다양한 난이도와 다양성을 가진 긍정 및 부정 샘플 생성을 가능하게 하며, 데이터 필터링 전략을 통해 생성된 데이터의 품질을 보장합니다. 제안된 파이프라인은 VLM 개인화 벤치마크에서 기존 방법들을 능가하는 성능을 보였습니다.