Quality over Quantity: An Effective Large-Scale Data Reduction Strategy Based on Pointwise V-Information
Created by
Haebom
저자
Fei Chen, Wenchi Zhou
개요
본 논문은 데이터 중심 AI에서 모델 학습 효율을 높이기 위한 효과적인 데이터 감축 전략으로 Pointwise-Information (PVI) 기반 방법을 제안합니다. PVI를 이용하여 각 인스턴스의 어려움을 정량화하고, 어려움이 낮은 인스턴스를 제거하는 정적 방법을 제시합니다. 10%-30%의 데이터를 제거하더라도 분류기 성능 저하가 0.0001%~0.76%에 불과함을 실험을 통해 보여줍니다. 또한, PVI 값이 증가하는 순서대로 예시를 정렬하여 점진적 학습 전략을 사용하여 분류기를 학습시켜 기존 학습 방식보다 0.8%의 정확도 향상을 달성했습니다. 기존 영어 데이터셋에 한정되었던 PVI 프레임워크를 다양한 중국어 NLP 작업 및 기본 모델에 적용하여 빠른 학습 및 언어 간 데이터 감축에 대한 통찰력 있는 결과를 얻었습니다. 제안된 방법은 최적의 부분 집합을 선택하여 학습함으로써 모델 성능 향상과 학습 효율 증대를 가져올 수 있음을 시사합니다. 소스 코드는 공개되었습니다 (https://github.com/zhouwenchi/DatasetReductionStrategy).