Cet article étudie la capacité de raisonnement inductif des modèles linguistiques à grande échelle (MLH), en particulier l'inférence des préférences des utilisateurs, plutôt que leur capacité de raisonnement déductif. Capturer les diverses préférences des utilisateurs dans la tâche d'alignement des LHH constitue un défi, car ces préférences sont implicitement incluses dans diverses formes d'interaction. Dans cet article, nous proposons le modèle AlignXplore, qui permet l'inférence systématique des préférences à partir des signaux comportementaux de l'historique des interactions des utilisateurs, grâce à une chaîne d'inférence étendue. AlignXplore est développé en combinant l'apprentissage à froid basé sur des données synthétiques et l'apprentissage par renforcement en ligne, et montre une amélioration moyenne des performances de 15,49 % par rapport aux modèles existants. De plus, nous présentons le cas optimal d'apprentissage par inférence des préférences grâce à une comparaison systématique des stratégies de modélisation de la récompense, et révélons l'émergence de schémas d'inférence inductifs de type humain au cours du processus d'apprentissage.