Bài báo này trình bày Trọng số Ưu tiên Dựa trên Tìm kiếm (SPW), một phương pháp mới tích hợp hai loại phản hồi của con người—trình diễn của chuyên gia và sở thích—để giải quyết những thách thức của thiết kế hàm thưởng trong học tăng cường ngoại tuyến. Đối với mỗi chuyển đổi trong một quỹ đạo được gắn nhãn ưu tiên, SPW tìm cặp trạng thái-hành động tương đồng nhất từ các trình diễn của chuyên gia và trực tiếp suy ra trọng số quan trọng từng bước dựa trên điểm tương đồng của chúng. Các trọng số này hướng dẫn học ưu tiên tiêu chuẩn, cho phép gán tín chỉ chính xác, một thách thức mà các phương pháp hiện có đang gặp phải. Phương pháp này chứng minh hiệu suất vượt trội so với các phương pháp hiện có trong nhiệm vụ điều khiển robot.