Dựa trên nghiên cứu trước đây về việc sử dụng thông tin tiên nghiệm trực quan trong các mô hình sinh văn bản thành hình ảnh (T2I) được huấn luyện trước cho dự đoán mật độ, bài báo này đưa ra giả thuyết rằng các mô hình chỉnh sửa hình ảnh có thể đóng vai trò là nền tảng phù hợp hơn cho việc tinh chỉnh ước lượng hình học mật độ so với các mô hình sinh T2I. Để kiểm chứng điều này, chúng tôi phân tích một cách có hệ thống các hành vi tinh chỉnh của các mô hình sinh và mô hình chỉnh sửa, chứng minh rằng mô hình chỉnh sửa, với thông tin tiên nghiệm cấu trúc độc đáo, đạt được sự hội tụ ổn định hơn và hiệu suất cao hơn. Dựa trên những phát hiện này, chúng tôi đề xuất FE2E , một khuôn khổ mới áp dụng các mô hình chỉnh sửa nâng cao dựa trên kiến trúc Biến áp Khuếch tán (DiT) vào dự đoán hình học mật độ . FE2E tái tạo lại tổn thất khớp dòng chảy ban đầu của mô hình chỉnh sửa như một mục tiêu huấn luyện "vận tốc nhất quán", giải quyết các xung đột về độ chính xác bằng cách sử dụng lượng tử hóa logarit và tận dụng cơ chế chú ý toàn cục của DiT để ước lượng đồng thời độ sâu và pháp tuyến trong một lần chạy. Chúng tôi đạt được những cải tiến hiệu suất đáng kể cho độ sâu đơn sắc không cần chụp và ước tính bình thường trên nhiều tập dữ liệu mà không cần tăng cường dữ liệu lớn, đặc biệt là chứng minh cải thiện hiệu suất hơn 35% trên tập dữ liệu ETH3D và vượt trội hơn chuỗi DepthAnything được đào tạo trên lượng dữ liệu nhiều hơn 100 lần.