En este artículo, presentamos PLUS (Aprendizaje de Preferencias Mediante Summarization), un novedoso marco para personalizar las respuestas de los grandes modelos lingüísticos (LLM) según las preferencias y objetivos del usuario. Mientras que el RLHF (Aprendizaje por Refuerzo a partir de la Retroalimentación Humana) tradicional entrena a todos los usuarios con un único modelo de recompensa, que no tiene en cuenta la variabilidad entre usuarios, PLUS aprende resúmenes textuales que resumen las preferencias, características y conversaciones previas de cada usuario. Estos resúmenes condicionan el modelo de recompensa para permitir predicciones personalizadas de los tipos de respuesta que cada usuario considera importantes. Creamos un bucle de coadaptación en línea que entrena los modelos de resumen de usuario y, simultáneamente, actualiza el modelo de recompensa mediante aprendizaje por refuerzo. Demostramos que PLUS es robusto ante nuevos usuarios y diversos temas de conversación en diversos conjuntos de datos de usuarios, y que los resúmenes de usuario generados pueden transferirse a la personalización de cero disparos de potentes modelos propietarios como GPT-4. Como resultado, los resúmenes de usuario generados son concisos y portátiles, además de fáciles de interpretar y modificar para los usuarios, lo que mejora la transparencia y el control del usuario sobre la alineación de los LLM.