Cet article propose l'optimisation sélective des préférences (SePO), une nouvelle stratégie d'alignement sélectif pour l'alignement de modèles de langage à grande échelle. Contrairement aux méthodes d'alignement au niveau des jetons existantes qui optimisent tous les jetons ou utilisent des stratégies complexes et coûteuses de sélection de jetons clés, SePO se concentre sur une sélection efficace de jetons clés. SePO présente la première méthode de sélection de jetons basée sur l'optimisation directe des préférences (DPO), qui entraîne un modèle oracle à estimer une fonction de récompense au niveau des jetons pour les données cibles. Cette méthode est applicable aux jeux de données d'alignement existants avec annotations au niveau des réponses et permet une sélection de jetons rentable à l'aide d'un petit modèle oracle et de données d'entraînement. La fonction de récompense estimée est utilisée pour évaluer tous les jetons du jeu de données cible, et seuls les jetons clés sont sélectionnés pour superviser le modèle de politique cible à l'aide d'une fonction objective contrastive sans modèle de référence. Des expériences approfondies sur trois benchmarks d'évaluation accessibles au public démontrent que SePO surpasse significativement les méthodes de référence concurrentes en optimisant seulement 30 % des jetons clés du jeu de données cible. L'application de SePO d'une généralisation faible à une généralisation forte démontre qu'un modèle d'oracle faible supervise efficacement un modèle de politique fort avec jusqu'à 16,8 fois plus de paramètres. De plus, SePO sélectionne efficacement les jetons clés parmi les données hors distribution, améliorant ainsi le modèle de politique fort et atténuant le problème de surapprentissage.