Concept-as-Tree: Synthetic Data is All You Need for VLM Personalization
Created by
Haebom
Category
Empty
저자
Ruichuan An, Kai Zeng, Ming Lu, Sihan Yang, Renrui Zhang, Huitong Ji, Qizhe Zhang, Yulin Luo, Hao Liang, Wentao Zhang
개요
본 논문은 Vision-Language Model (VLM)의 개인화 성능 향상에 초점을 맞추고 있다. 기존 VLM 개인화 방법들은 사용자 제공 긍정적/부정적 샘플을 이용한 미세 조정에 의존하지만, 긍정적 샘플 부족과 부정적 샘플 저품질 문제에 직면한다. 본 논문에서는 샘플(쉬운/어려운)과 모델 성능 간의 관계를 체계적으로 조사하고, 개념을 트리 구조로 표현하는 Concept-as-Tree (CaT) 프레임워크를 제안한다. CaT는 다양한 난이도와 다양성을 가진 긍정적/부정적 샘플 생성을 가능하게 하며, 데이터 필터링 전략을 통해 생성 데이터의 품질을 보장한다. 다양한 VLM 개인화 기준 모델을 사용한 실험을 통해 MyVLM, Yo'LLaVA, MC-LLaVA 데이터셋에서 VLM의 개인화 성능을 향상시키는 것을 보여준다. 본 연구는 VLM 개인화를 위한 최초의 제어 가능한 합성 데이터 파이프라인이다.
시사점, 한계점
•
시사점:
◦
VLM 개인화에서 긍정적 샘플 부족 및 부정적 샘플 저품질 문제를 해결하기 위한 효과적인 방법 제시.
◦
Concept-as-Tree (CaT) 프레임워크를 통해 다양한 난이도와 다양성을 가진 합성 데이터 생성 가능.
◦
제안된 데이터 필터링 전략을 통해 생성 데이터의 품질 향상.
◦
MyVLM, Yo'LLaVA, MC-LLaVA 데이터셋에서 VLM 개인화 성능 향상 확인.