Este artículo propone la Optimización de Preferencias Selectivas (SePO), una novedosa estrategia de alineación selectiva para la alineación de modelos lingüísticos a gran escala. A diferencia de los métodos de alineación a nivel de token existentes, que optimizan todos los tokens o emplean estrategias complejas y costosas de selección de tokens clave, SePO se centra en la selección eficiente de tokens clave. SePO presenta el primer método de selección de tokens basado en la Optimización de Preferencias Directas (DPO), que entrena un modelo de oráculo para estimar una función de recompensa a nivel de token para los datos objetivo. Este método es aplicable a conjuntos de datos de alineación existentes con anotaciones a nivel de respuesta y permite una selección de tokens rentable utilizando un modelo de oráculo pequeño y datos de entrenamiento. La función de recompensa estimada se utiliza para puntuar todos los tokens en el conjunto de datos objetivo, y solo se seleccionan los tokens clave para supervisar el modelo de política objetivo utilizando una función objetivo contrastiva sin un modelo de referencia. Experimentos exhaustivos en tres puntos de referencia de evaluación disponibles públicamente demuestran que SePO supera significativamente a los métodos de referencia de la competencia al optimizar solo el 30% de los tokens clave en el conjunto de datos objetivo. La aplicación de SePO de una generalización débil a una generalización fuerte demuestra que un modelo de oráculo débil supervisa eficazmente un modelo de política fuerte con hasta 16,8 veces más parámetros. Además, SePO selecciona eficazmente tokens clave de datos fuera de distribución, lo que mejora el modelo de política fuerte y mitiga el problema del sobreajuste.