本論文は,強化学習(RL)を用いた多車両協力走行戦略最適化におけるサンプル効率低下問題を解決するために定常状態遷移システムベースの差別化された補償方法を提案する。交通流の特性評価により、状態遷移勾配情報を補償設計に組み込むことで、多車両協力意思決定における行動選択と政策学習を最適化します。 MAPPO、MADQN、QMIXなどのRLアルゴリズムと多様な自律走行車両比環境で提案された方法の性能を検証した結果、学習収束速度が大幅に向上し、交通効率、安全性、行動合理性の点で従来の中心補償方法などより優れた性能を示した。さらに、強力なスケーラビリティと環境適応性を示し、複雑な交通環境でマルチエージェント協力意思決定のための新しいアプローチを提示します。