GraSS: Scalable Data Attribution with Gradient Sparsification and Sparse Projection
Created by
Haebom
저자
Pingbang Hu, Joseph Melkonian, Weijing Tang, Han Zhao, Jiaqi W. Ma
개요
본 논문은 반복적인 모델 재학습 없이 개별 훈련 샘플의 영향을 이해하는 데 중요한 그래디언트 기반 데이터 속성 방법의 확장성을 개선하기 위한 연구를 제시한다. 특히, 샘플별 그래디언트의 고유한 희소성을 활용하여 하위 선형 공간 및 시간 복잡성을 달성하는 새로운 그래디언트 압축 알고리즘인 GraSS와 선형 레이어에 특화된 FactGraSS를 제안한다. 광범위한 실험을 통해 제안된 방법론이 데이터 영향력 충실도를 유지하면서 상당한 속도 향상을 달성함을 입증했다. FactGraSS는 기존 최고 성능 대비 최대 165% 더 빠른 처리량을 달성했다.
시사점, 한계점
•
시사점:
◦
그래디언트 기반 데이터 속성 방법의 계산 비용과 메모리 비용 문제를 해결하여 확장성을 향상시켰다.
◦
GraSS 및 FactGraSS 알고리즘을 통해 샘플별 그래디언트의 희소성을 활용하여 하위 선형 복잡성을 달성했다.
◦
실험을 통해 상당한 속도 향상과 데이터 영향력 충실도 유지를 입증했다.
◦
억 단위 규모의 모델에서 FactGraSS가 기존 최고 성능보다 최대 165% 더 빠른 처리량을 달성했다.