Cet article aborde le problème du placement des tâches de service cellulaire véhicule-réseau (C-V2N) et de l'expansion des ressources périphériques pour une fourniture efficace de services de communications cellulaires véhicule-à-tout (C-V2X). Pour résoudre ce problème complexe, nous proposons une nouvelle technique d'apprentissage par renforcement profond (DRL), le gradient de politique mixte profond (DHPG), qui fonctionne dans un espace d'action mixte. Grâce à des simulations utilisant des jeux de données de trafic C-V2N réels, nous démontrons que le DHPG surpasse les solutions de pointe existantes et optimise l'utilisation des ressources de calcul tout en garantissant la latence du service C-V2N au 99e percentile. Enfin, nous effectuons une analyse de complexité temporelle pour vérifier que l'approche proposée peut prendre en charge les services C-V2N en temps réel.