본 논문은 대규모 언어 모델(LLM)을 인간의 선호도에 맞추는 효과적인 방법으로 부상한 Direct Preference Optimization (DPO)의 성능이 기본이 되는 인간 선호도 데이터의 품질에 크게 의존한다는 점에 주목합니다. 기존 연구에서는 다양한 데이터 선택 전략을 탐구했지만, 이러한 방법들은 최적화 과정에서 언어 모델의 변화하는 상태에 미치는 영향을 간과했습니다. 이에 본 논문에서는 DPO를 위한 샘플 스케줄링이라는 새로운 문제를 제기하며, 선호도 최적화 전반에 걸쳐 모델의 변화하는 배치별 상태에 따라 훈련 샘플을 동적이고 적응적으로 스케줄링하는 것을 목표로 합니다. 이 문제를 해결하기 위해, 본 논문에서는 LLM의 학습 피드백을 기반으로 각 훈련 배치에서 샘플을 적응적으로 선택하여 잠재적인 일반화 성능을 극대화하는 효율적이고 효과적인 알고리즘인 SamS를 제안합니다. SamS를 DPO 알고리즘에 통합함으로써, 핵심 DPO 알고리즘을 수정하지 않고도 작업 전반에서 성능을 크게 향상시키면서 추가적인 계산 오버헤드는 최소화했습니다.