CtrTab: Tabular Data Synthesis with High-Dimensional and Limited Data
Created by
Haebom
Category
Empty
저자
Zuqing Li, Jianzhong Qi, Junhao Gan
개요
고차원 저데이터 환경에서 기존 확산 기반 표 데이터 합성 모델의 성능 저하 문제를 해결하기 위해, 조건 제어 확산 모델인 CtrTab을 제안합니다. CtrTab은 샘플에 추가된 라플라스 노이즈를 제어 신호로 활용하여 데이터 다양성을 향상시키고, L2 정규화와 유사하게 모델의 강건성을 높입니다. 다양한 데이터셋에 대한 실험 결과, CtrTab은 기존 최고 성능 모델들을 능가하며, 정확도 측면에서 평균 80% 이상의 성능 향상을 보였습니다.
시사점, 한계점
•
시사점: 고차원 저데이터 환경에서의 확산 기반 표 데이터 합성 모델의 성능 향상 가능성을 제시합니다. CtrTab은 라플라스 노이즈를 활용한 제어 신호를 통해 데이터 다양성과 모델 강건성을 효과적으로 개선합니다. 실험 결과를 통해 기존 모델 대비 우수한 성능을 검증했습니다.
•
한계점: 현재는 논문 발표 이후 소스 코드 공개 예정이며, 다양한 고차원 데이터셋에 대한 추가적인 실험 및 다른 유형의 노이즈 추가에 대한 연구가 필요합니다. 또한, CtrTab의 성능 향상이 특정 데이터 유형에 편향되어 있을 가능성도 고려해야 합니다.