Basándonos en investigaciones previas sobre el uso de información visual previa en modelos generativos de texto a imagen (T2I) preentrenados para predicción densa, este artículo plantea la hipótesis de que los modelos de edición de imágenes pueden servir como una base más adecuada para el ajuste fino de la estimación de geometría densa que los modelos generativos T2I. Para verificar esto, analizamos sistemáticamente los comportamientos de ajuste fino de los modelos generativos y de edición, demostrando que el modelo de edición, con su información estructural previa única, logra una convergencia más estable y un mayor rendimiento. Con base en estos hallazgos, proponemos FE2E , un nuevo marco que aplica modelos de edición avanzados basados en la arquitectura del Transformador de Difusión (DiT) a la predicción de geometría densa . FE2E reconstruye la pérdida de coincidencia de flujo original del modelo de edición como un objetivo de entrenamiento de "velocidad constante", resuelve conflictos de precisión mediante cuantificación logarítmica y aprovecha el mecanismo de atención global de DiT para estimar simultáneamente la profundidad y las normales en una sola pasada. Logramos mejoras de rendimiento notables para la estimación normal y de profundidad monocular de disparo cero en múltiples conjuntos de datos sin aumento masivo de datos, demostrando notablemente una mejora del rendimiento de más del 35 % en el conjunto de datos ETH3D y superando a la serie DepthAnything entrenada con 100 veces más datos.