Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Détection de points clés humains auto-supervisée guidée par la profondeur via une distillation intermodale

Created by
  • Haebom

Auteur

Aman Anand, Elyas Rashno, Amir Eskandari, Farhana Zulkernine

Contour

Les méthodes existantes de détection de points clés non supervisées appliquent des transformations artificielles, telles que le masquage de parties importantes de l'image ou l'utilisation de la reconstruction de l'image originale comme objectif d'apprentissage. Cependant, ces approches manquent d'informations de profondeur et détectent souvent des points clés en arrière-plan. Pour résoudre ce problème, nous proposons Distill-DKP, un nouveau cadre de distillation de connaissances intermodales qui utilise des cartes de profondeur et des images RVB pour détecter les points clés de manière auto-supervisée. Pendant l'apprentissage, Distill-DKP extrait les connaissances de niveau d'intégration d'un modèle d'enseignant basé sur la profondeur pour guider un modèle d'élève basé sur l'image, limitant l'inférence au modèle d'élève. Les résultats expérimentaux démontrent que Distill-DKP surpasse significativement les méthodes d'apprentissage non supervisées existantes, réduisant l'erreur L2 moyenne de 47,15 % sur l'ensemble de données Human3.6M, réduisant l'erreur moyenne de 5,67 % sur l'ensemble de données Taichi et améliorant la précision des points clés de 1,3 % sur l'ensemble de données DeepFashion. Une étude d'ablation détaillée démontre la sensibilité de la distillation de connaissances sur différentes couches du réseau.

Takeaways, Limitations

Takeaways:
Nous montrons que l’utilisation d’informations de profondeur peut améliorer considérablement la précision de la détection de points clés non supervisés.
Nous présentons une méthode permettant de transférer efficacement les connaissances du modèle enseignant au modèle étudiant grâce à un cadre de distillation des connaissances intermodal.
Atteint des performances supérieures par rapport aux méthodes existantes sur les ensembles de données Human3.6M, Taichi et DeepFashion.
Limitations:
Des recherches supplémentaires sont nécessaires sur les performances de généralisation de la méthode proposée.
Une évaluation des performances est requise pour différents types de données d’image.
Des recherches supplémentaires sont nécessaires sur les couches optimales et les paramètres d’hyperparamètres pour la distillation des connaissances.
👍