Este artículo presenta la Ponderación de Preferencias Basada en Búsqueda (SPW), un novedoso método que integra dos tipos de retroalimentación humana (demostraciones de expertos y preferencias) para abordar los desafíos del diseño de funciones de recompensa en el aprendizaje de refuerzo offline. Para cada transición dentro de una trayectoria etiquetada con preferencias, SPW encuentra el par estado-acción más similar a partir de las demostraciones de expertos y deriva directamente ponderaciones de importancia paso a paso basadas en sus puntuaciones de similitud. Estas ponderaciones guían el aprendizaje de preferencias estándar, lo que permite una asignación precisa de créditos, un desafío al que se enfrentan los métodos existentes. Demuestra un rendimiento superior al de los métodos existentes en una tarea de manipulación de robots.