Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
Diffusion d'échafaudage : génération de structures voxel multi-catégories clairsemées avec diffusion discrète
Created by
Haebom
Auteur
Justin Jung
Contour
Cet article propose un modèle génératif appelé Scaffold Diffusion pour relever les défis de la génération de structures voxel 3D multi-catégories clairsemées, notamment le déséquilibre important entre les classes causé par la mise à l'échelle de la mémoire cubique et la rareté des structures voxeliques. Scaffold Diffusion traite les voxels comme des jetons et génère des structures voxeliques 3D à l'aide d'un modèle de langage de diffusion discrète. Nous démontrons que ce modèle peut être étendu pour générer des structures 3D spatialement cohérentes au-delà des domaines intrinsèquement séquentiels tels que le texte. Grâce à des évaluations sur les structures de maisons Minecraft issues du jeu de données 3D-Craft, nous démontrons que Scaffold Diffusion, contrairement aux modèles de base et aux formulations autorégressives existants, génère des structures réalistes et cohérentes, même lorsqu'elles sont entraînées avec des données présentant une rareté supérieure à 98 %. Nous fournissons également une visionneuse interactive permettant de visualiser les échantillons générés et le processus de génération ( https://scaffold.deepexploration.org/ ).
Nous présentons une nouvelle méthode efficace pour générer des structures de voxels 3D multi-catégories clairsemées.
◦
Démontrer la possibilité d'étendre le modèle de langage de diffusion discrète pour générer des structures spatiales.
◦
Générez des structures 3D réalistes et cohérentes même à partir de données avec une rareté supérieure à 98 %.
◦
Fournit une visionneuse interactive pour visualiser le processus de création.
•
Limitations:
◦
Des recherches supplémentaires sont nécessaires pour déterminer les performances de généralisation de la méthode proposée à d’autres types de données 3D ou à des structures plus complexes.
◦
Seuls les résultats d'évaluation pour l'ensemble de données 3D-Craft sont présentés, la vérification des performances de généralisation sur d'autres ensembles de données est donc nécessaire.
◦
Plutôt qu’une solution concrète au problème de mise à l’échelle de la mémoire, nous adoptons une approche détournée utilisant un modèle de langage de diffusion discret.