Sign In

Geometric Data Valuation via Leverage Scores

Created by
  • Haebom
Category
Empty

저자

Rodrigo Mendoza-Smith

개요

Shapley 데이터 가치 평가는 개별 데이터 포인트에 중요성을 할당하기 위한 원리적이고 공리적인 프레임워크를 제공하지만, 데이터의 모든 부분 집합에 대한 한계 효용을 평가해야 하므로 규모가 커지면 계산이 불가능합니다. 본 논문에서는 통계적 레버리지 점수를 기반으로 하는 기하학적 대안을 제안합니다. 이는 데이터 세트의 범위를 확장하고 훈련 문제의 유효 차원에 기여하는 정도를 측정하여 각 데이터 포인트의 표현 공간에서 구조적 영향을 정량화합니다. 제안된 점수는 Shapley 평가의 dummy, efficiency, symmetry 공리를 충족하며, 이를 ridge leverage scores로 확장하면 고전적인 A- 및 D-최적 설계 기준과 자연스럽게 연결되는 엄격하게 긍정적인 한계 이득을 얻습니다. 또한 레버리지 샘플링된 하위 집합에서 훈련하면 전체 데이터 최적 값의 O(ε) 내에 있는 매개변수와 예측 위험을 가진 모델이 생성되어 데이터 가치 평가와 다운스트림 결정 품질 간의 엄격한 연결을 제공합니다. 마지막으로, ridge-leverage sampling이 기울기나 역방향 패스에 접근하지 않고도 표준 기준선을 능가하는 것을 경험적으로 보여주는 능동 학습 실험을 수행합니다.

시사점, 한계점

시사점:
Shapley 데이터 가치 평가의 계산적 비효율성을 해결하는 기하학적 대안 제시.
통계적 레버리지 점수를 활용하여 데이터 포인트의 구조적 영향력을 측정.
제안된 점수가 Shapley 평가의 공리적 특성을 만족함.
ridge leverage scores가 A- 및 D-최적 설계 기준과 연관됨.
레버리지 샘플링이 전체 데이터와 유사한 성능을 제공.
능동 학습 실험에서 ridge-leverage sampling의 우수성 입증.
한계점:
논문에서 구체적인 한계점이 명시적으로 언급되지 않음. (제공된 정보 내에서는 알 수 없음)
👍