Sign In

Dataset Distillation with Neural Characteristic Function: A Minmax Perspective

Created by
  • Haebom
Category
Empty

저자

Shaobo Wang, Yicun Yang, Zhiyuan Liu, Chenghao Sun, Xuming Hu, Conghui He, Linfeng Zhang

개요

본 논문은 데이터 증류(dataset distillation)에서 분포 일치(distribution matching) 기반 접근 방식의 성능 향상을 위한 새로운 방법인 Neural Characteristic Function Matching (NCM)을 제안합니다. 기존 방법들이 사용하는 거리 측정법의 부정확성 문제를 해결하기 위해, 특성 함수(Characteristic Function, CF)를 활용하여 분포 차이를 측정하는 Neural Characteristic Function Discrepancy (NCFD) 지표를 도입합니다. NCM은 min-max 최적화 문제로 데이터 증류를 재정의하고, 신경망을 이용하여 CF의 주파수 인자에 대한 샘플링 전략을 최적화하여 NCFD를 극대화함으로써 거리 추정을 향상시킵니다. 이를 통해 실제 데이터와 합성 데이터 간의 차이를 최소화하며, 복소 평면에서 실제 및 합성 데이터의 신경망 특징의 위상과 진폭을 일치시켜 현실성과 다양성을 모두 고려한 합성 샘플을 생성합니다. 실험 결과, 저해상도 및 고해상도 데이터셋에서 기존 최고 성능 모델보다 성능이 크게 향상되었으며, ImageSquawk 데이터셋에서 20.5%의 정확도 향상을 달성했습니다. 또한, GPU 메모리 사용량을 300배 이상 감소시키고 처리 속도를 20배 향상시켰으며, 단일 NVIDIA 2080 Ti GPU에서 2.3GB의 메모리만 사용하여 CIFAR-100의 손실 없는 압축을 달성했습니다.

시사점, 한계점

시사점:
기존 분포 일치 기반 데이터 증류 방법의 한계를 극복하는 새로운 NCFD 지표와 NCM 방법 제시.
ImageSquawk 데이터셋에서 20.5%의 정확도 향상 및 GPU 메모리 사용량 300배 이상, 처리 속도 20배 이상 향상 등 괄목할 만한 성능 개선 달성.
단일 NVIDIA 2080 Ti GPU에서 CIFAR-100의 손실 없는 압축 가능성을 최초로 입증.
복소 평면에서 신경망 특징의 위상과 진폭을 정렬하여 합성 데이터의 현실성과 다양성을 향상.
한계점:
NCFD 지표의 계산 복잡도 및 최적화 과정의 효율성에 대한 추가적인 분석 필요.
다양한 데이터셋 및 모델에 대한 추가적인 실험을 통해 일반화 성능 검증 필요.
제안된 방법의 이론적 토대에 대한 더 깊이 있는 연구가 필요할 수 있음.
👍