Cet article présente SpA2V, un nouveau framework de génération vidéo audio qui exploite les indices auditifs spatiaux pour générer des vidéos réalistes et précises. Contrairement aux méthodes existantes qui se concentrent principalement sur les informations sémantiques, comme le type de son, SpA2V exploite explicitement les indices spatiaux dérivés de propriétés physiques, comme l'intensité sonore et la fréquence. SpA2V se compose de deux étapes : une étape de planification vidéo audioguidée qui génère une mise en page de scène vidéo (VSL) à partir des indices spatiaux et sémantiques de l'audio, et une étape de génération vidéo basée sur la mise en page qui génère une vidéo en utilisant un modèle de diffusion pré-entraîné comme condition sur la VSL. Les résultats expérimentaux démontrent que SpA2V excelle dans la génération de vidéos réalistes, sémantiquement et spatialement alignées avec l'audio d'entrée.