Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Modèles de base et modèles spécifiques au domaine : comparaison des performances, fusion et explicabilité dans la reconnaissance faciale

Created by
  • Haebom

Auteur

Redwan Sony, Parisa Farmanifard, Arun Ross, Anil K. Jain

Contour

Cet article compare et analyse les performances de reconnaissance faciale de modèles de base généraux (par exemple, CLIP, BLIP, GPT-4o, Grok-4) et de modèles spécialisés (par exemple, AdaFace, ArcFace). Des expériences utilisant plusieurs modèles de base et des jeux de données de référence démontrent que les modèles spécialisés surpassent le modèle de base à zéro-coup, et que ce dernier améliore les images de visage sursegmentées. De plus, la fusion au niveau du score des modèles de base et spécialisés améliore la précision avec de faibles taux d'erreur. De plus, les modèles de base tels que GPT-4o et Grok-4 fournissent une explication pour le pipeline de reconnaissance faciale et contribuent à résoudre le problème de faible confiance dans la prise de décision d'AdaFace. En conclusion, nous soulignons l'importance de combiner judicieusement les modèles spécialisés et de base.

Takeaways, Limitations

Takeaways:
Nous démontrons que le modèle de reconnaissance faciale spécialisé surpasse le modèle de base à zéro tir.
Suggérant l’importance des informations contextuelles dans les images sur-segmentées.
Suggérant la possibilité d'une amélioration des performances grâce à la fusion des niveaux de score des modèles de base et spécialisés.
Suggérer la possibilité de garantir l'explicabilité et d'améliorer la fiabilité des pipelines de reconnaissance faciale à l'aide de modèles de base.
Limitations:
Résultats expérimentaux limités à des modèles et ensembles de données de base spécifiques et spécialisés.
Des recherches supplémentaires sont nécessaires sur d’autres méthodes de fusion en plus de la fusion au niveau des scores.
Manque d’évaluation rigoureuse de diverses caractéristiques du visage (par exemple, l’expression, l’éclairage).
Absence d’évaluation quantitative du potentiel explicatif du modèle sous-jacent.
👍