이 논문은 기존에 분산되어 연구되던 약지도 이상 탐지(WSAD) 방법론들을 통합적으로 평가하기 위한 최초의 벤치마크인 WSADBench를 제안합니다. WSADBench는 불완전, 부정확, 부정확 지도 학습이라는 세 가지 시나리오에서 36가지 알고리즘을 4가지 모달리티에 걸쳐 체계적으로 평가하여, 다양한 지도 학습 방식의 성능 한계를 규명합니다. 70만 건 이상의 실험을 통해 약지도 학습 시나리오 간의 강력한 내적 상관관계와 특정 조건에서의 지도 학습 기반 모델의 우수성 등을 발견했습니다.
🔑 시사점 및 한계
•
약지도 이상 탐지의 세 가지 주요 연구 방향(불완전, 부정확, 부정확 지도)은 서로 밀접하게 연관되어 있으며, 기존의 분리된 연구 접근 방식은 한계가 있습니다.
•
라벨 희소성이 극심한 경우를 제외하고는, 특정 WSAD 알고리즘보다 일반적인 분류 모델이나 테이블 기반 파운데이션 모델이 더 나은 성능을 보이는 경우가 많습니다.
•
라벨 정제는 비지도 데이터의 불확실한 활용보다 일관된 성능 향상을 제공하며, 노이즈 유형에 따라 모델의 민감도가 비대칭적입니다.
•
본 벤치마크는 다양한 약지도 시나리오를 포괄하지만, 실제 적용 시 발생할 수 있는 더욱 복잡하고 동적인 환경에서의 지도 학습 패턴을 모두 반영하지는 못할 수 있습니다.