본 논문은 대규모 언어 모델(LLM)의 정렬에서 더 많은 깨끗한 데이터를 사용하는 것이 항상 더 나은 결과를 가져온다는 기존의 가정에 도전합니다. 대신, 선호도 데이터는 난이도가 다르며, 모델의 용량을 초과하는 지나치게 어려운 예시는 정렬을 방해한다는 새로운 원칙을 제시합니다. 세 가지 주요 발견을 통해 이 원칙을 검증합니다: (1) 정렬 실행 전반에 걸쳐 일관된 학습 순서를 통해 선호도 예시의 난이도가 다름을 보여줍니다. (2) 지나치게 어려운 예시는 네 가지 LLM과 두 가지 데이터셋에서 성능을 크게 저하시킵니다. (3) 모델의 용량은 어려운 예시를 처리하는 임계값을 결정하며, 데이터 선택과 모델 용량 간의 중요한 관계를 강조합니다. 이 원칙을 바탕으로, 지나치게 어려운 예시를 걸러내는 Selective DPO를 제시합니다. 이 간단한 조정은 AlpacaEval 2 벤치마크에서 기준 DPO에 비해 승률을 9~16% 향상시키며, 다양한 알고리즘 조정을 사용한 일련의 DPO 변형을 능가합니다. 결과적으로, LLM의 정렬 전략을 개선하기 위한 변혁적인 관점을 제시하며, 모델 용량과 데이터 난이도의 정렬 중요성을 보여줍니다. 코드는 https://github.com/glorgao/SelectiveDPO 에서 이용 가능합니다.