본 논문은 고주파수 연속 제어를 포함하는 다중 차량 협력 주행 작업에서 기존의 상태 기반 보상 함수의 문제점인 보상 차이 소멸 문제를 해결하기 위해 새로운 하이브리드 차등 보상(HDR) 메커니즘을 제안한다. HDR은 글로벌 잠재 함수 기반의 시간 차이 보상(TRD)과 액션의 한계 효용을 직접 측정하는 액션 기울기 보상(ARG)을 통합하여 알고리즘 수렴 속도와 정책 안정성을 향상시킨다. 또한, 협력 주행 문제를 시변 에이전트 집합을 가진 Multi-Agent Partially Observable Markov Game (POMDPG)로 공식화하고, HDR의 완전한 구현 방안을 제시한다. 온라인 계획(MCTS) 및 Multi-Agent Reinforcement Learning(QMIX, MAPPO, MADDPG) 알고리즘을 사용한 광범위한 실험을 통해 HDR 메커니즘이 교통 효율성과 안전성을 효과적으로 균형 잡는 고품질 협력 정책을 학습하도록 에이전트를 안내함을 입증한다.