Cet article présente la pondération des préférences basée sur la recherche (SPW), une nouvelle méthode qui intègre deux types de retours humains – démonstrations d'experts et préférences – pour relever les défis de la conception de fonctions de récompense dans l'apprentissage par renforcement hors ligne. Pour chaque transition au sein d'une trajectoire étiquetée par préférence, SPW identifie la paire état-action la plus similaire à partir des démonstrations d'experts et en déduit directement des pondérations d'importance étape par étape en fonction de leurs scores de similarité. Ces pondérations guident l'apprentissage standard des préférences, permettant une attribution précise des crédits, un défi rencontré par les méthodes existantes. Cette méthode démontre des performances supérieures aux méthodes existantes pour une tâche de manipulation de robots.