Bài báo này trình bày SpA2V, một khuôn khổ mới cho việc tạo video dựa trên âm thanh, tận dụng các tín hiệu thính giác không gian để tạo ra video chân thực và chính xác. Không giống như các phương pháp hiện có chủ yếu tập trung vào thông tin ngữ nghĩa, chẳng hạn như loại âm thanh trong âm thanh, SpA2V tận dụng rõ ràng các tín hiệu không gian bắt nguồn từ các đặc tính vật lý, chẳng hạn như độ to và tần số. SpA2V bao gồm hai giai đoạn: giai đoạn lập kế hoạch video hướng dẫn bằng âm thanh, tạo bố cục cảnh video (VSL) bằng cách sử dụng các tín hiệu không gian và ngữ nghĩa từ âm thanh, và giai đoạn tạo video dựa trên bố cục, tạo video bằng cách sử dụng mô hình khuếch tán được đào tạo trước làm điều kiện trên VSL. Kết quả thực nghiệm chứng minh rằng SpA2V vượt trội trong việc tạo video chân thực, phù hợp về mặt ngữ nghĩa và không gian với âm thanh đầu vào.