Este artículo presenta SpA2V, un novedoso marco para la generación de video basado en audio que aprovecha las señales auditivas espaciales para generar videos realistas y precisos. A diferencia de los métodos existentes que se centran principalmente en información semántica, como el tipo de sonido en el audio, SpA2V aprovecha explícitamente las señales espaciales derivadas de propiedades físicas, como la sonoridad y la frecuencia. SpA2V consta de dos etapas: una etapa de planificación de video guiada por audio que genera un diseño de escena de video (VSL) utilizando señales espaciales y semánticas del audio, y una etapa de generación de video basada en el diseño que genera un video utilizando un modelo de difusión preentrenado como condición del VSL. Los resultados experimentales demuestran que SpA2V destaca en la generación de videos realistas alineados semántica y espacialmente con el audio de entrada.