AutoVDC: Automated Vision Data Cleaning Using Vision-Language Models
Created by
Haebom
저자
Santosh Vasa, Aditi Ramadwar, Jnana Rama Krishna Darabattula, Md Zafar Anwar, Stanislaw Antol, Andrei Vatavu, Thomas Monninger, Sihao Ding
개요
자율 주행 시스템 훈련에는 강력한 성능을 달성하기 위해 정밀한 주석이 달린 방대한 데이터 세트가 필요합니다. 사람이 주석을 다는 것은 불완전할 수 있으며, 고품질 데이터 세트를 생성하려면 여러 번 반복해야 하는 경우가 많습니다. 그러나 대규모 데이터 세트를 수동으로 검토하는 것은 노동 집약적이고 비용이 많이 듭니다. 본 논문에서는 AutoVDC(자동 비전 데이터 정리) 프레임워크를 소개하고 비전-언어 모델(VLM)을 사용하여 비전 데이터 세트의 잘못된 주석을 자동으로 식별하여 사용자가 이러한 오류를 제거하고 데이터 품질을 향상시킬 수 있도록 합니다. KITTI 및 nuImages 데이터 세트를 사용하여 접근 방식의 유효성을 검증합니다. 이 데이터 세트에는 자율 주행을 위한 객체 감지 벤치마크가 포함되어 있습니다. AutoVDC의 효과를 테스트하기 위해 의도적으로 잘못된 주석을 삽입한 데이터 세트 변형을 만들고 접근 방식의 오류 감지율을 관찰합니다. 또한, 여러 VLM을 사용한 감지율을 비교하고 파이프라인에 대한 VLM 미세 조정의 영향을 조사합니다. 결과는 오류 감지 및 데이터 정리 실험에서 본 방법의 높은 성능을 보여주며, 자율 주행에서 대규모 생산 데이터 세트의 신뢰성과 정확성을 크게 향상시킬 수 있는 잠재력을 나타냅니다.
시사점, 한계점
•
시사점:
◦
비전-언어 모델(VLM)을 활용하여 자율 주행 데이터 세트의 오류 주석을 효과적으로 자동 감지하는 AutoVDC 프레임워크 제시.
◦
대규모 데이터 세트의 수동 검토에 드는 노력과 비용을 절감하여 데이터 품질 향상 및 개발 효율 증대 가능성 제시.
◦
KITTI 및 nuImages 데이터 세트를 활용한 실험을 통해 AutoVDC의 높은 오류 감지 성능 검증.
◦
다양한 VLM 및 미세 조정 기법을 비교 분석하여 AutoVDC의 성능 최적화 가능성 제시.
•
한계점:
◦
본 논문에서 제시된 AutoVDC의 성능은 사용된 VLM 및 데이터 세트에 따라 달라질 수 있으며, 다양한 조건에서의 일반화 성능에 대한 추가 연구가 필요.