Trong bài báo này, chúng tôi đề xuất NEURONS, một khuôn khổ mới để tái tạo video từ dữ liệu fMRI. Để khắc phục những khó khăn của các phương pháp hiện có trong việc ghi lại động lực không gian-thời gian, chúng tôi chia quá trình học thành bốn nhiệm vụ phụ: phân đoạn đối tượng chính, nhận dạng khái niệm, mô tả cảnh và tái tạo video mờ, lấy cảm hứng từ cấu trúc phân cấp của hệ thống thị giác. Điều này cho phép chúng tôi ghi lại nội dung video đa dạng và tái tạo video bằng cách tạo ra các tín hiệu có điều kiện mạnh mẽ sử dụng mô hình khuếch tán văn bản-video đã được đào tạo trước. Kết quả thử nghiệm cho thấy NEURONS vượt trội hơn các mô hình tiên tiến về độ mạch lạc video (26,6%) và độ chính xác ngữ nghĩa (19,1%), đồng thời thể hiện mối tương quan chức năng mạnh mẽ với vỏ não thị giác. Chúng tôi công bố mã và trọng số mô hình trên GitHub.