L'entraînement des systèmes de conduite autonome nécessite un vaste ensemble de données avec des annotations fines pour atteindre des performances robustes. Les annotations humaines peuvent être incomplètes et nécessitent souvent plusieurs itérations pour produire un ensemble de données de haute qualité. Cependant, l'analyse manuelle de grands ensembles de données est laborieuse et coûteuse. Dans cet article, nous présentons un framework de nettoyage automatique des données de vision (AutoVDC) qui utilise un modèle de langage vision (MLV) pour identifier automatiquement les erreurs d'annotation dans les ensembles de données de vision, permettant ainsi aux utilisateurs de les supprimer et d'améliorer la qualité des données. Nous validons notre approche à l'aide des ensembles de données KITTI et nuImages, qui contiennent des benchmarks de détection d'objets pour la conduite autonome. Pour tester l'efficacité d'AutoVDC, nous créons des variantes d'ensembles de données avec des images intentionnellement mal annotées et observons le taux de détection d'erreurs de notre approche. Nous comparons également les taux de détection avec plusieurs MLV et étudions l'impact du réglage fin du MLV sur le pipeline. Les résultats démontrent la haute performance de notre méthode dans les expériences de détection d'erreurs et de nettoyage de données, indiquant son potentiel pour améliorer significativement la fiabilité et la précision des ensembles de données de production à grande échelle pour la conduite autonome.