본 논문은 대규모 언어 모델(LLM)을 인간의 선호도에 맞추는 과정에서, 기존의 강화 학습 기반 방법(RLHF)이나 직접 선호도 최적화(DPO)가 많은 비용이 드는 선호도 데이터셋에 의존하는 문제점을 지적합니다. 이에 본 연구는 DPO의 암시적 보상 메커니즘을 기반으로 어려움 기반 데이터 선택 전략을 제시합니다. DPO 암시적 보상 간격이 작은(즉, 더 어려운) 선호도 데이터 예시를 선택함으로써 데이터 효율성을 높이고 모델 정렬 성능을 향상시킵니다. 실험 결과, 다양한 데이터셋과 정렬 작업에서 기존 방법들을 능가하며, 원래 데이터의 10%만으로도 우수한 성능을 달성합니다. 이는 제한된 자원으로 LLM 정렬을 확장하는 유망한 해결책을 제시합니다.