Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

MobileCLIP2: Improving Multi-Modal Reinforced Training

Created by
  • Haebom

作者

Fartash Faghri, Pavan Kumar Anasosalu Vasu, Cem Koc, Vaishaal Shankar, Alexander Toshev, Oncel Tuzel, Hadi Pouransari

概要

MobileCLIPは、3 15msの低遅延時間と50 150Mのパラメータを備えた最先端のゼロショット精度を提供する画像テキストモデルです。本論文ではマルチモード強化学習を改善し,MobileCLIP2を提示する。改善には、DFNデータセットで学習された拡張CLIP教師アンサンブルと、さまざまな高品質の画像キャプションデータセットで微調整された拡張キャプションジェネレータ教師を使用します。対照的な知識蒸留における温度調整の重要性、キャプション多様性に対するキャプションジェネレータの微調整の効果、複数のモデルで生成された合成キャプション結合のさらなる改善などを実験的に確認しました。その結果、MobileCLIP2はImageNet-1kで最先端のゼロショット精度を達成し、特にMobileCLIP2-BはMobileCLIP-Bと比較して2.2%の精度向上を示しました。 MobileCLIP2-S4は、SigLIP-SO400M/14と同じゼロショット精度を達成しながら、2倍小さいサイズを持ち、DFN ViT-L/14より2.5倍低い遅延時間を示します。学習したモデルとデータ生成コードを公開します。

Takeaways、Limitations

Takeaways:
マルチモード強化学習を改善し、MobileCLIPよりもパフォーマンスが向上したMobileCLIP2モデルを提示します。
ImageNet-1kで最先端のゼロショット精度を達成。
低レイテンシと小さなモデルサイズを維持しながらパフォーマンスを向上。
温度調整、キャプションジェネレータの微調整、マルチモデル合成キャプションの効果を実験的に検証。
再現可能な研究のために学習されたモデルとデータ生成コードを公開。
Limitations:
本論文で提示された改良が他の画像テキストモデルに適用可能であるかどうかに関するさらなる研究が必要である。
特定のデータセットのパフォーマンス最適化の可能性。他のデータセットでのパフォーマンス評価が必要です。
👍