Sign In

TNStream: Applying Tightest Neighbors to Micro-Clusters to Define Multi-Density Clusters in Streaming Data

Created by
  • Haebom
Category
Empty

저자

Qifen Zeng, Haomin Bao, Yuanzhuo Hu, Zirui Zhang, Yuheng Zheng, Luosheng Wen

개요

본 논문은 데이터 스트림 클러스터링 분야에서 기존의 밀도 기반 방법들이 복잡한 밀도 변화를 가진 고차원 데이터에 대한 클러스터링 성능이 저하되는 문제점을 해결하기 위해, 새로운 개념인 'Tightest Neighbors'와 'Skeleton Set' 기반의 새로운 데이터 스트림 클러스터링 이론을 제시한다. 이 이론을 바탕으로, 온라인 알고리즘인 TNStream을 개발하여, 국소적 유사도에 기반한 적응적 클러스터링 반경 결정 및 다중 밀도 데이터 스트림의 마이크로 클러스터 진화 요약, Tightest Neighbors 기반의 최종 클러스터 형성 과정을 제시한다. 고차원 데이터 처리 효율을 높이기 위해 Locality-Sensitive Hashing (LSH)을 활용하여 마이크로 클러스터 구조를 구성한다. 다양한 합성 및 실제 데이터셋을 이용한 실험 결과를 통해 TNStream의 효과성을 검증한다.

시사점, 한계점

시사점:
복잡한 밀도 변화를 갖는 고차원 데이터 스트림에 대한 효과적인 클러스터링 방법 제시
'Tightest Neighbors'와 'Skeleton Set' 기반의 새로운 데이터 스트림 클러스터링 이론 제시
TNStream 알고리즘을 통해 기존 알고리즘의 성능 저하 문제 개선
LSH 활용을 통한 고차원 데이터 처리 효율 향상
한계점:
제안된 이론 및 알고리즘의 일반화 가능성에 대한 추가 연구 필요
실험에 사용된 데이터셋의 다양성 확대 필요
매개변수 설정에 대한 민감도 분석 및 최적화 방안 연구 필요
TNStream의 확장성 및 스케일러빌리티에 대한 추가적인 평가 필요
👍