Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Difference Vector Equalization for Robust Fine-tuning of Vision-Language Models

Created by
  • Haebom
Category
Empty

저자

Satoshi Suzuki, Shin'ya Yamaguchi, Shoichiro Takeda, Taiga Yamane, Naoki Makishima, Naotaka Kawata, Mana Ihori, Tomohiro Tanaka, Shota Orihashi, Ryo Masumura

개요

본 논문은 CLIP과 같은 대비 사전 훈련된 시각-언어 모델을 in-distribution (ID) 데이터에 미세 조정하면서 out-of-distribution (OOD) 및 zero-shot 설정에서의 일반화 능력을 저하시키지 않는 방법을 제시한다. 기존의 robust fine-tuning 방법들이 임베딩의 기하학적 구조를 왜곡하여 OOD 및 zero-shot 성능을 제한하는 문제를 해결하기 위해, 본 논문은 기하학적 구조를 보존하는 Difference Vector Equalization (DiVE)를 제안한다. DiVE는 사전 훈련 모델과 미세 조정 모델에서 추출한 임베딩 간의 차이 벡터를 제약하여 기하학적 구조를 보존하며, Average Vector Loss (AVL) 및 Pairwise Vector Loss (PVL)을 사용하여 전체적 및 국소적으로 구조를 유지한다. 실험 결과, DiVE는 ID, OOD, zero-shot 성능에서 우수한 결과를 달성했다.

시사점, 한계점

시사점:
vision-language 모델의 robust fine-tuning 시, 기하학적 구조 보존의 중요성을 강조.
DiVE를 통해 ID, OOD, zero-shot 설정에서 모두 우수한 성능을 달성.
AVL 및 PVL을 활용하여 효과적인 기하학적 구조 보존 방법 제시.
한계점:
논문에서 구체적인 한계점에 대한 언급은 없음.
DiVE의 계산 복잡성이나 효율성에 대한 정보가 부족할 수 있음.
특정 데이터셋이나 모델 아키텍처에 대한 일반화 가능성에 대한 추가 연구 필요.
👍