Việc đào tạo các hệ thống lái tự động đòi hỏi một tập dữ liệu lớn với các chú thích chi tiết để đạt được hiệu suất mạnh mẽ. Chú thích của con người có thể không đầy đủ và thường yêu cầu nhiều lần lặp lại để tạo ra một tập dữ liệu chất lượng cao. Tuy nhiên, việc xem xét thủ công các tập dữ liệu lớn rất tốn kém và mất nhiều công sức. Trong bài báo này, chúng tôi giới thiệu một khuôn khổ làm sạch dữ liệu thị giác tự động (AutoVDC) sử dụng mô hình ngôn ngữ thị giác (VLM) để tự động xác định các chú thích sai trong các tập dữ liệu thị giác, cho phép người dùng loại bỏ các lỗi này và cải thiện chất lượng dữ liệu. Chúng tôi xác thực phương pháp của mình bằng cách sử dụng các tập dữ liệu KITTI và nuImages, chứa các điểm chuẩn phát hiện đối tượng cho xe tự hành. Để kiểm tra hiệu quả của AutoVDC, chúng tôi tạo các biến thể tập dữ liệu với các hình ảnh được chú thích sai cố ý và quan sát tỷ lệ phát hiện lỗi của phương pháp. Chúng tôi cũng so sánh tỷ lệ phát hiện bằng cách sử dụng nhiều VLM và nghiên cứu tác động của việc tinh chỉnh VLM lên quy trình. Kết quả chứng minh hiệu suất cao của phương pháp của chúng tôi trong các thí nghiệm phát hiện lỗi và làm sạch dữ liệu, cho thấy tiềm năng cải thiện đáng kể độ tin cậy và độ chính xác của các tập dữ liệu sản xuất quy mô lớn trong lĩnh vực lái xe tự hành.