본 논문은 대규모 언어 모델(LLM)의 성능과 정렬을 향상시키는 데 중요한 패러다임으로 떠오른 지시어 튜닝(Instruction Tuning)에서, 기존의 반복적인 모델 인식 데이터 선택 방법이 전체 데이터셋에 대한 모델 추론을 반복적으로 수행하여 샘플 유용성을 추정해야 하므로 상당한 계산 오버헤드를 발생시키는 문제점을 해결하는 데 중점을 둡니다. 이를 위해 논문에서는 표준 훈련 루프 내에서 샘플 유용성을 정확하게 추정하여 추가적인 모델 추론의 필요성을 없애는 효율적인 반복적 데이터 선택 프레임워크인 LEAD를 제안합니다. LEAD는 순간적인 훈련 손실, 손실 변화의 기울기 기반 근사, 과거 손실 신호의 지수 평활화를 결합하는 이론적 근거가 있는 유용성 함수인 인스턴스 수준 동적 불확실성(IDU)을 도입합니다. 또한 대규모 데이터셋에 효율적으로 확장하기 위해 다중 무장 밴딧 메커니즘을 통해 정보가 풍부한 클러스터를 적응적으로 우선 순위화하는 2단계의 조잡한 방식에서 정밀한 방식으로의 선택 전략을 사용합니다. 다양한 벤치마크 4개에 대한 광범위한 실험 결과, LEAD는 최첨단 방법보다 성능이 6.1%-10.8% 향상되고, 훈련 데이터의 2.5%만 사용하면서 전체 훈련 시간을 5-10배 단축시키는 것으로 나타났습니다.