[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

AutoVDC : nettoyage automatisé des données de vision à l'aide de modèles vision-langage

Created by
  • Haebom

Auteur

Santosh Vasa, Aditi Ramadwar, Jnana Rama Krishna Darabattula, Md Zafar Anwar, Stanislaw Antol, Andrei Vatavu, Thomas Monninger, Sihao Ding

Contour

L'entraînement des systèmes de conduite autonome nécessite un vaste ensemble de données avec des annotations fines pour atteindre des performances robustes. Les annotations humaines peuvent être incomplètes et nécessitent souvent plusieurs itérations pour produire un ensemble de données de haute qualité. Cependant, l'analyse manuelle de grands ensembles de données est laborieuse et coûteuse. Dans cet article, nous présentons un framework de nettoyage automatique des données de vision (AutoVDC) qui utilise un modèle de langage vision (MLV) pour identifier automatiquement les erreurs d'annotation dans les ensembles de données de vision, permettant ainsi aux utilisateurs de les supprimer et d'améliorer la qualité des données. Nous validons notre approche à l'aide des ensembles de données KITTI et nuImages, qui contiennent des benchmarks de détection d'objets pour la conduite autonome. Pour tester l'efficacité d'AutoVDC, nous créons des variantes d'ensembles de données avec des images intentionnellement mal annotées et observons le taux de détection d'erreurs de notre approche. Nous comparons également les taux de détection avec plusieurs MLV et étudions l'impact du réglage fin du MLV sur le pipeline. Les résultats démontrent la haute performance de notre méthode dans les expériences de détection d'erreurs et de nettoyage de données, indiquant son potentiel pour améliorer significativement la fiabilité et la précision des ensembles de données de production à grande échelle pour la conduite autonome.

Takeaways, Limitations

Takeaways:
Nous présentons un framework AutoVDC qui détecte automatiquement et efficacement les annotations d'erreur dans les ensembles de données de conduite autonome en exploitant le modèle de langage de vision (VLM).
Il présente le potentiel d’améliorer la qualité des données et d’accroître l’efficacité du développement en réduisant l’effort et le coût de l’examen manuel de grands ensembles de données.
Nous validons les performances élevées de détection d'erreurs d'AutoVDC grâce à des expériences utilisant les ensembles de données KITTI et nuImages.
Analyse comparative de diverses techniques VLM et de réglage fin pour suggérer la possibilité d'optimiser les performances d'AutoVDC.
Limitations:
Les performances d'AutoVDC présentées dans cet article peuvent varier en fonction du VLM et de l'ensemble de données utilisés, et des recherches supplémentaires sont nécessaires sur les performances de généralisation dans diverses conditions.
Des performances de détection améliorées pour les annotations d’erreurs complexes ou ambiguës sont nécessaires.
Des validations et des expériences supplémentaires sont nécessaires pour une application aux systèmes de conduite autonome réels.
Potentiel d’être biaisé en faveur de certains types d’erreurs.
👍