Este artículo propone la Recompensa Conductual y Contextual (BCR) para abordar dos desafíos clave del Aprendizaje Profundo por Refuerzo (DRL) en la Colaboración Humano-IA (HAIC): las recompensas dispersas y el comportamiento humano impredecible. La BCR consiste en un sistema dual de recompensa intrínseca, compuesto por recompensas intrínsecas de automotivación de IA y recompensas intrínsecas de motivación humana, así como un mecanismo de ponderación contextual que aprovecha la información contextual para mejorar la cooperación con los participantes. Los resultados de la simulación en un entorno sobrecocido muestran que el método propuesto aumenta las recompensas dispersas acumuladas en aproximadamente un 20 % y mejora la eficiencia del muestreo en aproximadamente un 38 % en comparación con las líneas base de última generación.