Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Cluster and Predict Latent Patches for Improved Masked Image Modeling

Created by
  • Haebom

作者

Timoth ee Darcet, Federico Baldassarre, Maxime Oquab, Julien Mairal, Piotr Bojanowski

概要

本論文は、既存のマスクされた画像モデリング(MIM)モデルの性能限界を克服するために、潜在的なクラスタリング予測に基づく新しい純粋なMIMフレームワークであるCAPIを提示します。 CAPIは、安定したトレーニングとスケーラビリティを備えたクラスタリングベースの損失関数を利用します。 ViT-Lバックボーンを使用したCAPIは、ImageNetでは83.8%の精度、ADE20Kでは32.1%のmIoUを達成し、従来のMIM方法を大幅に上回り、最先端のDINOv2に近い性能を示します。すべてのコードとモデルを公開します。

Takeaways、Limitations

Takeaways:
クラスタリングベースの損失関数を利用したMIMフレームワークの有効性を実証
従来のMIM法より優れた性能を達成し、最先端モデルに近い性能を見せます。
コードとモデル開示による研究の再現性と拡張性の向上
Limitations:
DINOv2に比べてまだ性能格差が存在。
提案された方法の一般化性能に対する追加実験の必要性
クラスタリングベースの損失関数のパラメータ最適化に関する追加の研究が必要です。
👍