Concept-as-Tree: Synthetic Data is All You Need for VLM Personalization
Created by
Haebom
Category
Empty
저자
Ruichuan An, Kai Zeng, Ming Lu, Sihan Yang, Renrui Zhang, Huitong Ji, Qizhe Zhang, Yulin Luo, Hao Liang, Wentao Zhang
개요
본 논문은 사용자 개념을 Vision-Language Model (VLM)에 통합하는 개인화 과정에서 양질의 긍정적, 부정적 샘플 부족 문제를 해결하기 위해 Concept-as-Tree (CaT) 프레임워크를 제안합니다. CaT는 개념을 트리 구조로 표현하여 다양한 난이도와 다양성을 가진 긍정적 및 부정적 샘플을 생성합니다. 잘 설계된 데이터 필터링 전략을 통해 생성 데이터의 질을 보장하며, MyVLM, Yo'LLaVA, MC-LLaVA 데이터셋을 사용한 실험 결과, VLM 개인화 성능을 향상시키는 것을 보여줍니다. 이는 VLM 개인화를 위한 최초의 제어 가능한 합성 데이터 파이프라인입니다.
시사점, 한계점
•
시사점:
◦
VLM 개인화 과정에서 긍정적, 부정적 샘플 부족 문제에 대한 효과적인 해결책 제시.
◦
CaT 프레임워크를 통해 다양한 난이도와 다양성을 가진 샘플 생성 가능.
◦
제안된 데이터 필터링 전략을 통해 생성 데이터의 질 향상.
◦
MyVLM, Yo'LLaVA, MC-LLaVA 데이터셋에서 VLM 개인화 성능 향상 확인.