Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MobileCLIP2: Improving Multi-Modal Reinforced Training

Created by
  • Haebom

저자

Fartash Faghri, Pavan Kumar Anasosalu Vasu, Cem Koc, Vaishaal Shankar, Alexander Toshev, Oncel Tuzel, Hadi Pouransari

개요

MobileCLIP은 315ms의 낮은 지연 시간과 50150M의 매개변수를 가진 최첨단 제로샷 정확도를 제공하는 이미지-텍스트 모델입니다. 본 논문에서는 다중 모드 강화 학습을 개선하여 MobileCLIP2를 제시합니다. 개선 사항으로는 DFN 데이터셋으로 학습된 향상된 CLIP 교사 앙상블과 다양한 고품질 이미지-캡션 데이터셋으로 미세 조정된 향상된 캡션 생성기 교사를 사용합니다. 대조적 지식 증류에서 온도 조정의 중요성, 캡션 다양성을 위한 캡션 생성기 미세 조정의 효과, 여러 모델로 생성된 합성 캡션 결합의 추가적인 개선 등을 실험적으로 확인하였습니다. 결과적으로, MobileCLIP2는 ImageNet-1k에서 최첨단 제로샷 정확도를 달성하며, 특히 MobileCLIP2-B는 MobileCLIP-B에 비해 2.2%의 정확도 향상을 보였습니다. MobileCLIP2-S4는 SigLIP-SO400M/14와 동일한 제로샷 정확도를 달성하면서 2배 작은 크기를 가지며, DFN ViT-L/14보다 2.5배 낮은 지연 시간을 보입니다. 학습된 모델과 데이터 생성 코드를 공개합니다.

시사점, 한계점

시사점:
다중 모드 강화 학습을 개선하여 MobileCLIP보다 성능이 향상된 MobileCLIP2 모델을 제시.
ImageNet-1k에서 최첨단 제로샷 정확도 달성.
낮은 지연 시간과 작은 모델 크기를 유지하면서 성능 향상.
온도 조정, 캡션 생성기 미세 조정, 다중 모델 합성 캡션의 효과를 실험적으로 검증.
재현 가능한 연구를 위해 학습된 모델과 데이터 생성 코드 공개.
한계점:
본 논문에서 제시된 개선 사항들이 다른 이미지-텍스트 모델에 적용 가능한지에 대한 추가 연구 필요.
특정 데이터셋에 대한 성능 최적화 가능성. 다른 데이터셋에서의 성능 평가 필요.
👍