Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Từ Trình soạn thảo đến Trình ước tính hình học dày đặc

Created by
  • Haebom

Tác giả

JiYuan Wang, Chunyu Lin, Lei Sun, Rongying Liu, Lang Nie, Mingxing Li, Kang Liao, Xiangxiang Chu, Yao Zhao

Phác thảo

Dựa trên nghiên cứu trước đây về việc sử dụng thông tin tiên nghiệm trực quan trong các mô hình sinh văn bản thành hình ảnh (T2I) được huấn luyện trước cho dự đoán mật độ, bài báo này đưa ra giả thuyết rằng các mô hình chỉnh sửa hình ảnh có thể đóng vai trò là nền tảng phù hợp hơn cho việc tinh chỉnh ước lượng hình học mật độ so với các mô hình sinh T2I. Để kiểm chứng điều này, chúng tôi phân tích một cách có hệ thống các hành vi tinh chỉnh của các mô hình sinh và mô hình chỉnh sửa, chứng minh rằng mô hình chỉnh sửa, với thông tin tiên nghiệm cấu trúc độc đáo, đạt được sự hội tụ ổn định hơn và hiệu suất cao hơn. Dựa trên những phát hiện này, chúng tôi đề xuất FE2E , một khuôn khổ mới áp dụng các mô hình chỉnh sửa nâng cao dựa trên kiến ​​trúc Biến áp Khuếch tán (DiT) vào dự đoán hình học mật độ . FE2E tái tạo lại tổn thất khớp dòng chảy ban đầu của mô hình chỉnh sửa như một mục tiêu huấn luyện "vận tốc nhất quán", giải quyết các xung đột về độ chính xác bằng cách sử dụng lượng tử hóa logarit và tận dụng cơ chế chú ý toàn cục của DiT để ước lượng đồng thời độ sâu và pháp tuyến trong một lần chạy. Chúng tôi đạt được những cải tiến hiệu suất đáng kể cho độ sâu đơn sắc không cần chụp và ước tính bình thường trên nhiều tập dữ liệu mà không cần tăng cường dữ liệu lớn, đặc biệt là chứng minh cải thiện hiệu suất hơn 35% trên tập dữ liệu ETH3D và vượt trội hơn chuỗi DepthAnything được đào tạo trên lượng dữ liệu nhiều hơn 100 lần.

Takeaways, Limitations

Takeaways:
Chúng tôi chứng minh bằng thực nghiệm rằng các mô hình chỉnh sửa hình ảnh là nền tảng phù hợp hơn cho các tác vụ dự đoán dày đặc như ước tính hình học dày đặc.
Chúng tôi trình bày một khuôn khổ FE2E giúp cải thiện đáng kể độ sâu đơn sắc không cần chụp và hiệu suất ước tính bình thường bằng cách sử dụng hiệu quả mô hình chỉnh sửa dựa trên Diffusion Transformer.
Nó cho thấy khả năng đạt được hiệu suất tuyệt vời ngay cả khi không có lượng dữ liệu lớn.
Một phương pháp hiệu quả để ước tính đồng thời độ sâu và pháp tuyến trong một lần chạy được trình bày.
Limitations:
Việc cải thiện hiệu suất của FE2E có thể chỉ giới hạn ở một số tập dữ liệu cụ thể.
Xác minh hiệu suất tổng quát là cần thiết cho các loại nhiệm vụ dự đoán dày đặc khác.
Sự phụ thuộc vào kiến ​​trúc Diffusion Transformer. Khả năng mở rộng sang các kiến ​​trúc khác cần được xem xét lại.
👍