Este artículo compara y analiza el rendimiento de los modelos base generales (p. ej., CLIP, BLIP, GPT-4o, Grok-4) y los modelos especializados (p. ej., AdaFace, ArcFace) en el reconocimiento facial. Experimentos con múltiples modelos base y conjuntos de datos de referencia demuestran que los modelos especializados superan al modelo base de disparo cero, y que este último mejora las imágenes faciales sobresegmentadas. Además, la fusión a nivel de puntuación de los modelos base y especializados mejora la precisión con bajos índices de error. Asimismo, modelos base como GPT-4o y Grok-4 facilitan la explicación del proceso de reconocimiento facial y ayudan a abordar la toma de decisiones con baja confianza en AdaFace. En conclusión, destacamos la importancia de combinar adecuadamente los modelos especializados y base.