Sign In

ClipGrader: Leveraging Vision-Language Models for Robust Label Quality Assessment in Object Detection

Created by
  • Haebom
Category
Empty

저자

Hong Lu, Yali Bian, Rahul C. Shah

개요

ClipGrader는 비전-언어 모델을 활용하여 바운딩 박스 어노테이션의 정확도를 자동으로 평가하는 새로운 방법입니다. CLIP을 적용하여 클래스 레이블 정확성과 바운딩 박스의 공간적 정밀도를 모두 평가함으로써 객체 탐지 레이블의 등급을 매기는 효과적인 솔루션을 제공합니다. 인위적으로 왜곡된 바운딩 박스가 있는 수정된 객체 탐지 데이터셋에서 테스트한 결과, COCO에서 91%의 정확도와 1.8%의 위양성률을 달성했습니다. 또한 COCO 데이터의 10%만으로 학습했을 때도 87%의 정확도와 2.1%의 위양성률을 유지했습니다. LVIS와 같은 더 큰 데이터셋에서도 1,203개의 클래스에 걸쳐 79%의 정확도를 달성하며 확장성을 보여줍니다. 실험 결과 ClipGrader는 기존 COCO 어노테이션의 오류를 식별할 수 있으며, 데이터셋 개선에 활용될 가능성을 보여줍니다. 준지도 객체 탐지(SSOD) 모델에 통합되면 의사 레이블 품질을 향상시켜 훈련 과정 전반에 걸쳐 더 높은 mAP(평균 정밀도)를 달성하는 데 도움이 됩니다. 따라서 ClipGrader는 대규모 객체 탐지 데이터셋의 어노테이션 품질 관리 및 검증을 향상시키는 확장 가능한 AI 지원 도구를 제공합니다.

시사점, 한계점

시사점:
비전-언어 모델을 이용하여 객체 탐지 어노테이션의 정확도를 효과적으로 평가하는 방법 제시.
대규모 데이터셋에서도 높은 정확도와 확장성을 보임.
준지도 학습 모델의 성능 향상에 기여.
데이터셋 개선 및 품질 관리에 활용 가능.
한계점:
현재는 인위적으로 왜곡된 데이터셋을 기반으로 평가되었으므로, 실제 데이터셋에 대한 성능 검증 필요.
위양성률이 여전히 존재하며, 이를 더욱 낮추기 위한 추가 연구 필요.
다양한 유형의 어노테이션 오류에 대한 일반화 성능 평가 필요.
👍