Dans cet article, nous présentons CAPI, un nouveau framework MIM pur basé sur la prédiction de clustering latent, qui permet de surmonter les limitations de performance des modèles MIM (Modélisation d'Images Masquées) existants. CAPI utilise une fonction de perte basée sur le clustering, avec un entraînement stable et une évolutivité optimale. Grâce à la base ViT-L, CAPI atteint une précision de 83,8 % sur ImageNet et de 32,1 % mIoU sur ADE20K, surpassant ainsi largement les méthodes MIM existantes et se rapprochant de la technologie DINOv2. L'ensemble du code et des modèles est open source.