Cet article aborde la question de l'efficacité des modèles de langage visuel (MLV) à capturer les préférences visuelles humaines. Grâce à des techniques d'apprentissage par renforcement inspirées de DeepSeek R1 et d'OpenAI O1, nous entraînons les MVV à prendre en compte les préférences lors des tests. Grâce à des jeux de données tels qu'ImageReward et Human Preference Score v2 (HPSv2), nous obtenons une précision de 64,9 % sur l'ensemble de test ImageReward (entraîné sur les données de fractionnement formel ImageReward) et de 65,4 % sur HPSv2 (entraîné sur environ 25 % des données). Ce résultat est comparable aux modèles conventionnels basés sur un encodeur, tout en offrant une inférence transparente et une capacité de généralisation améliorée. Cette approche nous permet d'exploiter non seulement la richesse des connaissances du monde des MVV, mais aussi leur capacité de raisonnement pour obtenir des résultats interprétables et faciliter la prise de décision. Dans cet article, nous démontrons que les MVV actuels peuvent raisonnablement déduire les préférences visuelles humaines et introduisons une stratégie de récompense douce efficace pour le classement des images, plus performante que les méthodes simples de sélection ou de notation. Cette capacité d'inférence permet aux VLM de classer des images arbitraires, indépendamment du rapport hauteur/largeur ou de la complexité, améliorant ainsi l'efficacité de l'optimisation des préférences visuelles. En réduisant le besoin de balisage important et en améliorant la généralisation et l'explicabilité des récompenses, nos résultats peuvent constituer une étape importante pour l'amélioration des modèles texte-image.