Este artículo presenta un método para generar objetos 3D estables, considerando las restricciones físicas requeridas para aplicaciones prácticas, particularmente la autosostenibilidad bajo gravedad. Los métodos existentes, que optimizan formas geométricas usando simuladores físicos diferenciables en tiempo de prueba, presentan limitaciones como lentitud, inestabilidad y tendencia a caer en óptimos locales. Inspirado por la investigación existente sobre la alineación de modelos generativos con retroalimentación externa, este artículo propone un marco de Optimización de Simulación Directa (DSO). DSO aprovecha la retroalimentación de un simulador no diferenciable para aumentar la probabilidad de que un generador 3D genere directamente objetos 3D estables. Construimos un conjunto de datos de objetos 3D etiquetados usando puntajes de estabilidad obtenidos de simuladores físicos y ajustamos el generador 3D usando Optimización de Preferencia Directa (DPO) o nuestra novedosa Optimización de Recompensa Directa (DRO), usando los puntajes de estabilidad como una métrica de alineación. Los resultados experimentales demuestran que un generador de avance ajustado mediante la función objetivo DPO o DRO es significativamente más rápido y tiene mayor probabilidad de generar objetos estables que una optimización en tiempo de prueba. En particular, el marco DSO puede recopilar automáticamente la retroalimentación de la simulación sobre su propia salida para mejorar el generador 3D, sin necesidad de utilizar objetos 3D existentes para el entrenamiento.