데이터 선택은 대규모 언어 모델(LLM)을 포함한 데이터 기반 의사 결정에서 중요한 역할을 하며, 일반적으로 작업에 따라 달라집니다. 데이터 품질 및 다양성과 같은 속성은 광범위하게 연구되었으며 모델 성능을 향상시키는 것으로 알려져 있습니다. 본 논문에서는 보다 균일하게 분포된 데이터를 선택하면 훈련 효율성을 향상시키면서 성능을 향상시킬 수 있음을 보여줍니다. 특히, 더 균일한(덜 편향된) 분포가 데이터 포인트 간의 더 큰 최소 쌍별 거리($h_{\min}$)로 이어진다는 것을 확인하고, 더 작은 $h_{\min}$이 경사 하강법(GD)의 훈련 역학을 늦출 수 있음을 증명합니다. 또한, 신경망의 근사 오차가 $h_{\min}$이 증가함에 따라 감소한다는 것을 이론적으로 보여줍니다. 본 연구는 립시츠 평활성을 요구하지 않고, 트랜스포머를 포함한 광범위한 아키텍처에 적용 가능한 NTK(Neural Tangent Kernel) 범위를 넘어선 GD에 대한 수렴 프레임워크를 도입합니다. 이 프레임워크는 심층 신경 아키텍처에서 잔차 연결 및 함수 합성을 사용하는 것에 대한 이론적 근거를 제공합니다. 다양한 설정(다른 최적화 전략, 모델 크기 및 훈련 데이터 세트 포함)에서 감독 학습 미세 조정을 위한 포괄적인 실험을 수행했습니다. 결과는 쌍별 거리를 최대화하여 데이터를 선택하면 다양한 데이터 세트에서 LLM의 훈련 속도를 크게 가속화하고 동등하거나 더 나은 성능을 달성한다는 것을 일관되게 보여줍니다.