Forgetting by Pruning: Data Deletion in Join Cardinality Estimation
Created by
Haebom
Category
Empty
저자
Chaowei He, Yuanjun Liu, Qingzhi Ma, Shenyuan Ren, Xizhao Luo, Lei Zhao, An Liu
개요
본 논문은 머신 러닝 기반의 기수 추정(CE) 시스템에서 머신 언러닝을 수행할 때 발생하는 문제를 해결하기 위한 새로운 프레임워크인 Cardinality Estimation Pruning (CEP)을 제안한다. 특히 다중 테이블 관계형 데이터의 복잡한 분포 종속성으로 인해 발생하는 데이터 삭제의 세 가지 주요 문제점(속성 수준 민감도, 테이블 간 전파, 도메인 소멸)을 해결한다. CEP는 Distribution Sensitivity Pruning과 Domain Pruning을 도입하여 매개변수 프루닝과 값 도메인 제거를 통해 성능 저하를 최소화하고, NeuroCard 및 FACE 아키텍처를 IMDB 및 TPC-H 데이터셋에 적용하여 기존 기법보다 우수한 성능을 보인다.
시사점, 한계점
•
시사점:
◦
다중 테이블 환경에서 머신 언러닝을 위한 최초의 프레임워크 제시.
◦
기존 CE 시스템의 데이터 삭제 문제를 해결하기 위한 실질적인 접근 방식 제시 (Distribution Sensitivity Pruning, Domain Pruning).
◦
다양한 데이터셋과 아키텍처에 대한 광범위한 실험을 통해 우수한 성능 입증 (특히 높은 삭제 비율에서).
◦
전체 재학습 대비 빠른 수렴 속도와 낮은 계산 오버헤드.
•
한계점:
◦
특정 아키텍처 (NeuroCard, FACE) 및 데이터셋 (IMDB, TPC-H)에 대한 실험 결과에 국한.