sliced optimal transport dataset distance (s-OTDD)는 모델과 임베딩에 독립적인 데이터셋 비교 접근법으로, 훈련이 필요 없고 클래스 수의 변화에 강하며, 서로 다른 레이블 집합을 처리할 수 있습니다. 핵심 혁신은 Moment Transform Projection (MTP)으로, 특징에 대한 분포로 표현되는 레이블을 실수로 매핑합니다. MTP를 사용하여 데이터 포인트 투영을 도출하여 데이터셋을 1차원 분포로 변환합니다. s-OTDD는 무작위 투영 매개변수에 대한 투영된 분포 간의 기대 Wasserstein 거리로 정의됩니다. 1차원 최적 전송의 폐쇄형 솔루션을 활용하여 s-OTDD는 데이터 포인트 수와 특징 차원에서 (거의) 선형적 계산 복잡도를 달성하며 클래스 수와는 무관합니다. 기하학적으로 의미 있는 투영을 통해 s-OTDD는 기존 데이터셋 불일치 측정값보다 효율적이면서 최적 전송 데이터셋 거리와 강하게 상관관계를 갖습니다. 또한, 전이 학습의 성능 차이와 데이터 증강의 분류 정확도와도 잘 상관관계를 보입니다.