Bài báo này đề xuất Phần thưởng Nhận thức Hành vi và Ngữ cảnh (BCR) để giải quyết hai thách thức chính của Học Tăng cường Sâu (DRL) trong Hợp tác Người-AI (HAIC): phần thưởng thưa thớt và hành vi khó lường của con người. BCR bao gồm một hệ thống phần thưởng nội tại kép, bao gồm phần thưởng nội tại tự thúc đẩy của AI và phần thưởng nội tại do con người thúc đẩy, cũng như một cơ chế trọng số nhận thức ngữ cảnh tận dụng thông tin ngữ cảnh để cải thiện sự hợp tác với các đối tác là con người. Kết quả mô phỏng trong môi trường quá nhiệt cho thấy phương pháp được đề xuất làm tăng phần thưởng thưa thớt tích lũy khoảng 20% và cải thiện hiệu quả lấy mẫu khoảng 38% so với các phương pháp cơ sở hiện đại.