대규모 데이터셋의 급속한 성장은 심층 학습 연구 발전의 주요 원동력이었지만, 데이터셋 규모가 커짐에 따라 중복 샘플, 과도하게 어려운 샘플, 모델 개선에 거의 기여하지 않는 쉬운 샘플 등 저가치 샘플로 인해 학습 과정의 비효율성이 증가합니다. 본 논문에서는 대규모 데이터셋을 위한 효율적인 학습 방법인 SeTa(Scale Efficient Training)을 제안합니다. SeTa는 손실 없는 학습 시간 단축을 위한 동적 샘플 가지치기 기법으로, 먼저 무작위 가지치기를 통해 중복 샘플을 제거한 후 손실을 기준으로 나머지 샘플들을 클러스터링합니다. 이 클러스터링을 기반으로 슬라이딩 윈도우 전략을 사용하여 쉬운 것부터 어려운 것 순서(easy-to-hard curriculum)에 따라 과도하게 어려운 클러스터와 비효율적인 쉬운 클러스터를 점진적으로 제거합니다. ToCa, SS1M, ST+MJ 등 300만 개 이상의 샘플을 포함하는 대규모 합성 데이터셋과 다양한 백본(CNN, Transformer, Mamba), 다양한 작업(지시어 튜닝, 다중 뷰 입체 영상, 지리적 위치 확인, 복합 이미지 검색, 참조 이미지 분할)에 대한 실제 데이터셋에서 광범위한 실험을 수행하여 최대 50%의 학습 비용 감소와 성능 유지 또는 향상을 보였으며, 70%의 비용 감소에서도 성능 저하가 최소화되었습니다. 코드는 https://github.com/mrazhou/SeTa 에서 확인 가능합니다.