[공지사항]을 빙자한 안부와 근황 
Show more

Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

AutoVDC: Tự động làm sạch dữ liệu thị giác bằng mô hình ngôn ngữ thị giác

Created by
  • Haebom

Tác giả

Santosh Vasa, Aditi Ramadwar, Jnana Rama Krishna Darabattula, Md Zafar Anwar, Stanislaw Antol, Andrei Vatavu, Thomas Monninger, Sihao Ding

Phác thảo

Việc đào tạo các hệ thống lái tự động đòi hỏi một tập dữ liệu lớn với các chú thích chi tiết để đạt được hiệu suất mạnh mẽ. Chú thích của con người có thể không đầy đủ và thường yêu cầu nhiều lần lặp lại để tạo ra một tập dữ liệu chất lượng cao. Tuy nhiên, việc xem xét thủ công các tập dữ liệu lớn rất tốn kém và mất nhiều công sức. Trong bài báo này, chúng tôi giới thiệu một khuôn khổ làm sạch dữ liệu thị giác tự động (AutoVDC) sử dụng mô hình ngôn ngữ thị giác (VLM) để tự động xác định các chú thích sai trong các tập dữ liệu thị giác, cho phép người dùng loại bỏ các lỗi này và cải thiện chất lượng dữ liệu. Chúng tôi xác thực phương pháp của mình bằng cách sử dụng các tập dữ liệu KITTI và nuImages, chứa các điểm chuẩn phát hiện đối tượng cho xe tự hành. Để kiểm tra hiệu quả của AutoVDC, chúng tôi tạo các biến thể tập dữ liệu với các hình ảnh được chú thích sai cố ý và quan sát tỷ lệ phát hiện lỗi của phương pháp. Chúng tôi cũng so sánh tỷ lệ phát hiện bằng cách sử dụng nhiều VLM và nghiên cứu tác động của việc tinh chỉnh VLM lên quy trình. Kết quả chứng minh hiệu suất cao của phương pháp của chúng tôi trong các thí nghiệm phát hiện lỗi và làm sạch dữ liệu, cho thấy tiềm năng cải thiện đáng kể độ tin cậy và độ chính xác của các tập dữ liệu sản xuất quy mô lớn trong lĩnh vực lái xe tự hành.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một khuôn khổ AutoVDC có khả năng tự động phát hiện chú thích lỗi trong các tập dữ liệu lái xe tự động bằng cách tận dụng Mô hình ngôn ngữ thị giác (VLM).
Nó thể hiện tiềm năng cải thiện chất lượng dữ liệu và tăng hiệu quả phát triển bằng cách giảm công sức và chi phí xem xét thủ công các tập dữ liệu lớn.
Chúng tôi xác thực hiệu suất phát hiện lỗi cao của AutoVDC thông qua các thử nghiệm sử dụng bộ dữ liệu KITTI và nuImages.
Phân tích so sánh các kỹ thuật VLM và tinh chỉnh khác nhau để đề xuất khả năng tối ưu hóa hiệu suất của AutoVDC.
Limitations:
Hiệu suất của AutoVDC được trình bày trong bài báo này có thể thay đổi tùy thuộc vào VLM và tập dữ liệu được sử dụng và cần nghiên cứu thêm về hiệu suất tổng quát trong nhiều điều kiện khác nhau.
Cần cải thiện hiệu suất phát hiện các chú thích lỗi phức tạp hoặc mơ hồ.
Cần có thêm các thử nghiệm và xác nhận để ứng dụng vào hệ thống lái xe tự động thực tế.
Có khả năng thiên vị một số loại lỗi nhất định.
👍