본 논문은 기존 이미지 분류 벤치마크 데이터셋(CIFAR, MNIST, ImageNet 등)에 존재하는 노이즈 레이블과 누락 레이블 문제를 해결하기 위한 종합적인 프레임워크 REVEAL을 제시합니다. REVEAL은 최신 사전 훈련된 비전-언어 모델(LLaVA, BLIP, Janus, Qwen 등)과 고급 머신/휴먼 레이블 큐레이션 방법(Docta, Cleanlab, MTurk 등)을 통합하여 노이즈 레이블과 누락 레이블을 모두 감지하고, 다양한 방법의 예측을 집계하고, 신뢰도 기반 예측 및 합의 기반 필터링을 통해 레이블 정확도를 개선합니다. 또한, 최신 비전-언어 모델과 사전 훈련된 이미지 분류기의 강점과 한계를 분석하고, 10가지 관찰 결과를 제시하며, 6개의 벤치마크 테스트 세트의 품질을 크게 향상시켜 인간 판단과의 일치도를 높이고, 더 정확하고 의미 있는 이미지 분류 비교를 가능하게 합니다. REVEAL은 누락된 레이블을 효과적으로 찾아내고, 가능성을 나타내는 소프트 레이블 결과를 제공합니다.