Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Concept-as-Tree: Synthetic Data is All You Need for VLM Personalization

Created by
  • Haebom
Category
Empty

저자

Ruichuan An, Kai Zeng, Ming Lu, Sihan Yang, Renrui Zhang, Huitong Ji, Qizhe Zhang, Yulin Luo, Hao Liang, Wentao Zhang

개요

본 논문은 Vision-Language Model (VLM)의 개인화 성능 향상에 초점을 맞추고 있다. 기존 VLM 개인화 방법들은 사용자 제공 긍정적/부정적 샘플을 이용한 미세 조정에 의존하지만, 긍정적 샘플 부족과 부정적 샘플 저품질 문제에 직면한다. 본 논문에서는 샘플(쉬운/어려운)과 모델 성능 간의 관계를 체계적으로 조사하고, 개념을 트리 구조로 표현하는 Concept-as-Tree (CaT) 프레임워크를 제안한다. CaT는 다양한 난이도와 다양성을 가진 긍정적/부정적 샘플 생성을 가능하게 하며, 데이터 필터링 전략을 통해 생성 데이터의 품질을 보장한다. 다양한 VLM 개인화 기준 모델을 사용한 실험을 통해 MyVLM, Yo'LLaVA, MC-LLaVA 데이터셋에서 VLM의 개인화 성능을 향상시키는 것을 보여준다. 본 연구는 VLM 개인화를 위한 최초의 제어 가능한 합성 데이터 파이프라인이다.

시사점, 한계점

시사점:
VLM 개인화에서 긍정적 샘플 부족 및 부정적 샘플 저품질 문제를 해결하기 위한 효과적인 방법 제시.
Concept-as-Tree (CaT) 프레임워크를 통해 다양한 난이도와 다양성을 가진 합성 데이터 생성 가능.
제안된 데이터 필터링 전략을 통해 생성 데이터의 품질 향상.
MyVLM, Yo'LLaVA, MC-LLaVA 데이터셋에서 VLM 개인화 성능 향상 확인.
VLM 개인화를 위한 최초의 제어 가능한 합성 데이터 파이프라인 제공.
한계점:
제안된 방법의 일반화 성능에 대한 추가적인 연구 필요.
다양한 VLM 아키텍처 및 데이터셋에 대한 추가적인 실험 필요.
합성 데이터의 품질 평가에 대한 더욱 엄격한 기준 마련 필요.
👍