Cet article souligne que les benchmarks existants d'édition de connaissances des modèles de langage multimodaux à grande échelle (MLLM) se concentrent principalement sur les modifications au niveau cognitif, négligeant les processus métacognitifs profonds. Par conséquent, nous proposons CogEdit, un nouveau benchmark pour évaluer les capacités d'édition de connaissances métacognitives. CogEdit évalue les capacités d'édition de connaissances métacognitives de MLLM à trois niveaux : l'édition contrefactuelle, l'édition avec contraintes de limites et l'édition robuste au bruit. De plus, nous présentons un cadre d'édition dynamique de connaissances intégrée à la métacognition (MIND), qui construit une mémoire de métaconnaissances pour la conscience de soi, surveille l'activation des connaissances par des interactions de théorie des jeux et intègre le raffinement des étiquettes pour les mises à jour robustes au bruit. Les résultats expérimentaux démontrent que MIND surpasse les méthodes d'édition cognitive existantes, obtenant des performances robustes sur les benchmarks d'édition de connaissances existants et métacognitifs.