En este artículo, proponemos un nuevo marco, el Muestreo de Preferencias Duras (HPS), para alinear las respuestas de los modelos lingüísticos a gran escala (LLM) con las preferencias humanas. Los métodos de optimización de preferencias basados en los modelos Plackett-Luce (PL) y Bradley-Terry (BT) presentan problemas como la dificultad para gestionar contenido perjudicial, la utilización ineficiente de respuestas no preferidas y el alto coste computacional del PL. HPS resuelve estos problemas introduciendo una pérdida de entrenamiento que prioriza las respuestas más preferidas y rechaza todas las respuestas no preferidas y perjudiciales. En particular, mejora la capacidad de rechazo del modelo al enfatizar las respuestas no preferidas "duras" similares a las preferidas, y mantiene la calidad de la alineación a la vez que reduce la sobrecarga computacional mediante el uso de una estrategia de muestreo de Monte Carlo de muestra única. En teoría, HPS mejora la eficiencia de la muestra en comparación con los métodos PL existentes y maximiza el margen de compensación entre las respuestas preferidas y no preferidas, garantizando una distinción más clara. A través de experimentos en los conjuntos de datos HH-RLHF y PKU-Safety, verificamos la eficacia de HPS, logrando puntajes BLEU y de recompensa similares mientras mejoramos significativamente el margen de recompensa, reduciendo así la generación de contenido dañino.