본 논문은 기존의 어려운 난이도 정의 문제를 해결하기 위해, 적응형 부분 집합 선택을 다중 팔 бандит 문제로 재해석하고, 각 팔이 샘플 선택을 안내하는 submodular function에 해당하는 ONLINESUBMOD라는 새로운 온라인 탐욕 정책을 제안한다. ONLINESUBMOD는 효용성 기반 보상을 최적화하며, 다양한 샘플링 방식에서 후회 없는 성능을 보장한다. 실험적으로, ONLINESUBMOD는 시각 및 언어 데이터 세트에서 기존의 curriculum learning 및 bi-level optimization 방식보다 우수한 정확도-효율성 트레이드오프를 보여준다.