[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

AutoVDC: Automated Vision Data Cleaning Using Vision-Language Models

Created by
  • Haebom

저자

Santosh Vasa, Aditi Ramadwar, Jnana Rama Krishna Darabattula, Md Zafar Anwar, Stanislaw Antol, Andrei Vatavu, Thomas Monninger, Sihao Ding

개요

자율 주행 시스템 훈련에는 강력한 성능을 달성하기 위해 정밀한 주석이 달린 방대한 데이터 세트가 필요합니다. 사람이 주석을 다는 것은 불완전할 수 있으며, 고품질 데이터 세트를 생성하려면 여러 번 반복해야 하는 경우가 많습니다. 그러나 대규모 데이터 세트를 수동으로 검토하는 것은 노동 집약적이고 비용이 많이 듭니다. 본 논문에서는 AutoVDC(자동 비전 데이터 정리) 프레임워크를 소개하고 비전-언어 모델(VLM)을 사용하여 비전 데이터 세트의 잘못된 주석을 자동으로 식별하여 사용자가 이러한 오류를 제거하고 데이터 품질을 향상시킬 수 있도록 합니다. KITTI 및 nuImages 데이터 세트를 사용하여 접근 방식의 유효성을 검증합니다. 이 데이터 세트에는 자율 주행을 위한 객체 감지 벤치마크가 포함되어 있습니다. AutoVDC의 효과를 테스트하기 위해 의도적으로 잘못된 주석을 삽입한 데이터 세트 변형을 만들고 접근 방식의 오류 감지율을 관찰합니다. 또한, 여러 VLM을 사용한 감지율을 비교하고 파이프라인에 대한 VLM 미세 조정의 영향을 조사합니다. 결과는 오류 감지 및 데이터 정리 실험에서 본 방법의 높은 성능을 보여주며, 자율 주행에서 대규모 생산 데이터 세트의 신뢰성과 정확성을 크게 향상시킬 수 있는 잠재력을 나타냅니다.

시사점, 한계점

시사점:
비전-언어 모델(VLM)을 활용하여 자율 주행 데이터 세트의 오류 주석을 효과적으로 자동 감지하는 AutoVDC 프레임워크 제시.
대규모 데이터 세트의 수동 검토에 드는 노력과 비용을 절감하여 데이터 품질 향상 및 개발 효율 증대 가능성 제시.
KITTI 및 nuImages 데이터 세트를 활용한 실험을 통해 AutoVDC의 높은 오류 감지 성능 검증.
다양한 VLM 및 미세 조정 기법을 비교 분석하여 AutoVDC의 성능 최적화 가능성 제시.
한계점:
본 논문에서 제시된 AutoVDC의 성능은 사용된 VLM 및 데이터 세트에 따라 달라질 수 있으며, 다양한 조건에서의 일반화 성능에 대한 추가 연구가 필요.
복잡하거나 모호한 오류 주석에 대한 감지 성능 개선이 필요.
실제 자율 주행 시스템에 적용하기 위한 추가적인 검증 및 실험이 필요.
특정 유형의 오류에 편향될 가능성.
👍