En este artículo, proponemos un novedoso método de optimización directa, LarPO (Alineamiento LLM como Optimización de Preferencias del Recuperador), que aprovecha los principios de la recuperación de información (RI) para resolver el problema de alineación de los modelos lingüísticos a gran escala (LLM). Este método supera la complejidad de los métodos de alineación existentes basados en aprendizaje por refuerzo y presenta un marco sistemático que relaciona los modelos de generación y recompensa de LLM con el paradigma de búsqueda-reordenamiento del IR. Los resultados experimentales demuestran la eficacia de LarPO, mostrando mejoras de rendimiento del 38,9 % y el 13,7 % en AlpacaEval2 y MixEval-Hard, respectivamente. Esto abre nuevas posibilidades para la investigación de la alineación de LLM basada en IR.