SceneGen est un framework innovant qui génère simultanément plusieurs ressources 3D avec des informations géométriques et de texture, à partir d'une seule image de scène et de ses masques d'objets correspondants. Fonctionnant sans optimisation ni recherche de ressources, il intègre un module d'agrégation de caractéristiques innovant qui intègre les informations locales et globales de la scène provenant d'encodeurs visuels et géométriques pour générer des ressources 3D et leurs positions spatiales relatives en une seule passe. Bien qu'entraîné sur une seule image en entrée, il est directement adaptable aux scénarios multi-images. Des évaluations quantitatives et qualitatives démontrent son efficacité et ses capacités de génération robustes. Il offre une solution innovante au problème émergent de la génération de contenu 3D pour les applications de réalité virtuelle/réalité augmentée et d'IA implémentée.