본 논문은 수십억 개의 샘플을 포함하는 현대 데이터셋에서의 효율적인 부분집합 선택 문제를 다룬다. 기존의 하위모듈 함수 최적화 알고리즘은 순차적이며, 분산된 방법 또한 중앙 머신에 부분집합을 저장해야 하는 한계를 지닌다. 본 논문은 중앙 머신 없이도 고품질 부분집합을 선택할 수 있는 새로운 분산 경계 알고리즘을 제안한다. 이 알고리즘은 최소 및 최대 유틸리티 값의 경계를 반복적으로 계산하여 고품질 점을 선택하고 중요하지 않은 점을 버린다. 경계 계산으로 완전한 부분집합을 찾지 못할 경우, 다중 라운드 기반의 분할 분산 탐욕 알고리즘을 사용하여 나머지 부분집합을 식별한다. CIFAR-100과 ImageNet 데이터셋, 그리고 130억 개의 데이터 포인트를 가진 데이터셋에서 중앙 집중식 방법과 비교하여 품질 저하 없이 고품질 부분집합을 선택하는 실험 결과를 제시한다.