Cet article présente une méthode permettant de générer des objets 3D stables tout en tenant compte des contraintes physiques requises pour les applications pratiques, notamment l'autosuffisance gravitationnelle. Les méthodes existantes, qui optimisent les formes géométriques à l'aide de simulateurs physiques différentiables au moment des tests, présentent des limitations telles que la lenteur, l'instabilité et la tendance à tomber dans des optima locaux. Inspiré par des recherches existantes sur l'alignement des modèles génératifs avec un retour d'information externe, cet article propose un cadre d'optimisation par simulation directe (DSO). La DSO exploite le retour d'information d'un simulateur non différentiable pour augmenter la probabilité qu'un générateur 3D produise directement des objets 3D stables. Nous construisons un jeu de données d'objets 3D étiquetés à l'aide des scores de stabilité obtenus à partir de simulateurs physiques et affinons le générateur 3D à l'aide de l'optimisation directe des préférences (DPO) ou de notre nouvelle optimisation directe des récompenses (DRO), en utilisant les scores de stabilité comme mesure d'alignement. Les résultats expérimentaux démontrent qu'un générateur à anticipation optimisé à l'aide de la fonction objective DPO ou DRO est nettement plus rapide et plus susceptible de générer des objets stables qu'une optimisation au moment des tests. En particulier, le framework DSO peut collecter automatiquement les retours de simulation sur sa propre sortie pour améliorer le générateur 3D lui-même, sans nécessiter d'objets 3D existants pour la formation.