Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Structure-based Anomaly Detection and Clustering

Created by
  • Haebom

저자

Filippo Leveni

개요

본 논문은 구조화된 데이터와 스트리밍 데이터에서의 이상 탐지를 위한 새로운 비지도 학습 방법을 제안한다. 첫 번째 부분에서는 정상 데이터가 저차원 다양체를 따르고 이상치가 이에서 벗어나는 구조 기반 이상 탐지에 초점을 맞춘다. 다양체 적합을 통해 데이터를 고차원 선호 공간에 임베딩하고 Voronoi-iForest와 RuzHash-iForest 두 가지 변형을 사용하여 이상치를 분리하는 Preference Isolation Forest (PIF)를 소개한다. 스트리밍 시나리오를 위해 지역 다양체 정보를 포착하는 Sliding-PIF도 제안한다. 합성 및 실제 데이터셋에서 기존 기술보다 성능이 뛰어나다. 또한, 노이즈가 있는 데이터에서 여러 기하학적 모델 패밀리를 복구하기 위한 새로운 방법인 MultiLink를 사용하여 구조 기반 클러스터링으로 확장한다. MultiLink는 모델 인식 연결 전략을 통해 클러스터를 병합하여 강력한 다중 클래스 구조 복구를 가능하게 한다. 속도, 임계값에 대한 감도 감소, 초기 샘플링이 좋지 않을 때의 강건성 향상과 같은 기존 접근 방식에 비해 주요 이점을 제공한다. 두 번째 부분에서는 진화하는 데이터 스트림에서의 온라인 이상 탐지를 다룬다. 적응적 다중 해상도 히스토그램을 사용하고 시간 경과에 따른 변화를 추적하기 위해 트리 구조를 동적으로 업데이트하는 Online Isolation Forest (Online-iForest)를 제안한다. 오프라인 모델과 비교할 만한 정확도를 달성하면서 재훈련을 피하고 실시간 애플리케이션에 대한 효율성이 뛰어나다. 마지막으로, 악성 코드 분류를 위한 열린 집합 인식을 통해 사이버 보안에서의 이상 탐지에 대해 다룬다. MaxLogit을 사용하여 Gradient Boosting 분류기를 향상시켜 보이지 않는 악성 코드 패밀리를 탐지하는 방법을 제안하며, 이 방법은 현재 Cleafy의 프로덕션 시스템에 통합되어 있다.

시사점, 한계점

시사점:
구조화된 데이터와 스트리밍 데이터 모두에서 효과적인 이상 탐지 방법 제시
기존 방법보다 성능이 우수한 PIF, Sliding-PIF, MultiLink, Online-iForest 알고리즘 개발
사이버 보안 분야에서의 악성 코드 탐지 성능 향상
실시간 애플리케이션에 적용 가능한 효율적인 온라인 이상 탐지 알고리즘 제공
한계점:
제안된 방법들의 일반화 성능에 대한 추가적인 연구 필요
특정 데이터 유형이나 이상 패턴에 대한 성능 저하 가능성 존재
고차원 데이터에 대한 계산 복잡도 문제 해결 필요
실제 환경 적용 시 발생할 수 있는 문제점에 대한 추가적인 검증 필요
👍