Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Concept-as-Tree: Synthetic Data is All You Need for VLM Personalization

Created by
  • Haebom
Category
Empty

저자

Ruichuan An, Kai Zeng, Ming Lu, Sihan Yang, Renrui Zhang, Huitong Ji, Qizhe Zhang, Yulin Luo, Hao Liang, Wentao Zhang

개요

본 논문은 사용자 개념을 Vision-Language Model (VLM)에 통합하는 개인화 과정에서 양질의 긍정적, 부정적 샘플 부족 문제를 해결하기 위해 Concept-as-Tree (CaT) 프레임워크를 제안합니다. CaT는 개념을 트리 구조로 표현하여 다양한 난이도와 다양성을 가진 긍정적 및 부정적 샘플을 생성합니다. 잘 설계된 데이터 필터링 전략을 통해 생성 데이터의 질을 보장하며, MyVLM, Yo'LLaVA, MC-LLaVA 데이터셋을 사용한 실험 결과, VLM 개인화 성능을 향상시키는 것을 보여줍니다. 이는 VLM 개인화를 위한 최초의 제어 가능한 합성 데이터 파이프라인입니다.

시사점, 한계점

시사점:
VLM 개인화 과정에서 긍정적, 부정적 샘플 부족 문제에 대한 효과적인 해결책 제시.
CaT 프레임워크를 통해 다양한 난이도와 다양성을 가진 샘플 생성 가능.
제안된 데이터 필터링 전략을 통해 생성 데이터의 질 향상.
MyVLM, Yo'LLaVA, MC-LLaVA 데이터셋에서 VLM 개인화 성능 향상 확인.
VLM 개인화를 위한 최초의 제어 가능한 합성 데이터 파이프라인 공개.
한계점:
제안된 방법의 일반화 성능에 대한 추가적인 연구 필요.
다양한 VLM 모델 및 데이터셋에 대한 추가적인 실험 필요.
트리 구조를 이용한 개념 표현의 한계 및 개선 방향에 대한 논의 필요.
합성 데이터의 현실 세계 데이터와의 차이점 및 이에 대한 보완 방안 필요.
👍