S'appuyant sur des recherches antérieures sur l'utilisation d'informations a priori visuelles dans des modèles génératifs texte-image (T2I) pré-entraînés pour la prédiction dense, cet article émet l'hypothèse que les modèles d'édition d'images peuvent constituer une base plus adaptée à l'affinement de l'estimation de la géométrie dense que les modèles génératifs T2I. Pour le vérifier, nous analysons systématiquement les comportements d'affinement des modèles génératifs et d'édition, démontrant que le modèle d'édition, grâce à ses informations a priori structurelles uniques, atteint une convergence plus stable et des performances supérieures. Sur la base de ces résultats, nous proposons FE2E , un nouveau cadre qui applique des modèles d'édition avancés basés sur l'architecture Diffusion Transformer (DiT) à la prédiction de la géométrie dense . FE2E reconstruit la perte de correspondance de flux d'origine du modèle d'édition comme objectif d'apprentissage de la « vitesse cohérente », résout les conflits de précision grâce à la quantification logarithmique et exploite le mécanisme d'attention globale de DiT pour estimer simultanément la profondeur et les normales en un seul passage. Nous obtenons des améliorations de performances remarquables pour l'estimation de la profondeur monoculaire et normale à zéro tir sur plusieurs ensembles de données sans augmentation massive des données, démontrant notamment une amélioration des performances de plus de 35 % sur l'ensemble de données ETH3D et surpassant la série DepthAnything entraînée sur 100 fois plus de données.