# Lightspeed Geometric Dataset Distance via Sliced Optimal Transport

### 저자

Khai Nguyen, Hai Nguyen, Tuan Pham, Nhat Ho

### 개요

sliced optimal transport dataset distance (s-OTDD)는 모델과 임베딩에 독립적인 데이터셋 비교 접근법으로, 훈련이 필요 없고 클래스 수의 변화에 강하며, 서로 다른 레이블 집합을 처리할 수 있습니다. 핵심 혁신은 Moment Transform Projection (MTP)으로, 특징에 대한 분포로 표현되는 레이블을 실수로 매핑합니다. MTP를 사용하여 데이터 포인트 투영을 도출하여 데이터셋을 1차원 분포로 변환합니다. s-OTDD는 무작위 투영 매개변수에 대한 투영된 분포 간의 기대 Wasserstein 거리로 정의됩니다. 1차원 최적 전송의 폐쇄형 솔루션을 활용하여 s-OTDD는 데이터 포인트 수와 특징 차원에서 (거의) 선형적 계산 복잡도를 달성하며 클래스 수와는 무관합니다. 기하학적으로 의미 있는 투영을 통해 s-OTDD는 기존 데이터셋 불일치 측정값보다 효율적이면서 최적 전송 데이터셋 거리와 강하게 상관관계를 갖습니다. 또한, 전이 학습의 성능 차이와 데이터 증강의 분류 정확도와도 잘 상관관계를 보입니다.

### 시사점, 한계점

- **시사점:**

    - 모델과 임베딩에 독립적이며, 훈련이 필요 없는 효율적인 데이터셋 비교 방법 제공.

    - 클래스 수의 변화와 서로 다른 레이블 집합에 강건함.

    - (거의) 선형적 계산 복잡도를 통해 대규모 데이터셋 처리 가능.

    - 최적 전송 데이터셋 거리와 강한 상관관계를 보이며, 전이 학습 및 데이터 증강 성능과의 상관관계도 높음.

- **한계점:**

    - 명시적으로 언급된 한계점은 없음.  추가적인 실험 및 비교 분석을 통해 일반화 성능 및 다양한 데이터셋에 대한 적용 가능성 등을 더 검증해야 함.

[PDF 보기](https://arxiv.org/pdf/2501.18901)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
