Cet article compare et analyse les performances de reconnaissance faciale de modèles de base généraux (par exemple, CLIP, BLIP, GPT-4o, Grok-4) et de modèles spécialisés (par exemple, AdaFace, ArcFace). Des expériences utilisant plusieurs modèles de base et des jeux de données de référence démontrent que les modèles spécialisés surpassent le modèle de base à zéro-coup, et que ce dernier améliore les images de visage sursegmentées. De plus, la fusion au niveau du score des modèles de base et spécialisés améliore la précision avec de faibles taux d'erreur. De plus, les modèles de base tels que GPT-4o et Grok-4 fournissent une explication pour le pipeline de reconnaissance faciale et contribuent à résoudre le problème de faible confiance dans la prise de décision d'AdaFace. En conclusion, nous soulignons l'importance de combiner judicieusement les modèles spécialisés et de base.