ClipGrader는 비전-언어 모델을 활용하여 바운딩 박스 어노테이션의 정확도를 자동으로 평가하는 새로운 방법입니다. CLIP을 적용하여 클래스 레이블 정확성과 바운딩 박스의 공간적 정밀도를 모두 평가함으로써 객체 탐지 레이블의 등급을 매기는 효과적인 솔루션을 제공합니다. 인위적으로 왜곡된 바운딩 박스가 있는 수정된 객체 탐지 데이터셋에서 테스트한 결과, COCO에서 91%의 정확도와 1.8%의 위양성률을 달성했습니다. 또한 COCO 데이터의 10%만으로 학습했을 때도 87%의 정확도와 2.1%의 위양성률을 유지했습니다. LVIS와 같은 더 큰 데이터셋에서도 1,203개의 클래스에 걸쳐 79%의 정확도를 달성하며 확장성을 보여줍니다. 실험 결과 ClipGrader는 기존 COCO 어노테이션의 오류를 식별할 수 있으며, 데이터셋 개선에 활용될 가능성을 보여줍니다. 준지도 객체 탐지(SSOD) 모델에 통합되면 의사 레이블 품질을 향상시켜 훈련 과정 전반에 걸쳐 더 높은 mAP(평균 정밀도)를 달성하는 데 도움이 됩니다. 따라서 ClipGrader는 대규모 객체 탐지 데이터셋의 어노테이션 품질 관리 및 검증을 향상시키는 확장 가능한 AI 지원 도구를 제공합니다.