Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

GTR: Cải thiện các mô hình tái tạo 3D lớn thông qua tinh chỉnh hình học và kết cấu

Created by
  • Haebom

Tác giả

Peiye Zhuang, Songfang Han, Chaoyang Wang, Aliaksandr Siarohin, Jiaxu Zou, Michael Vasilkovsky, Vladislav Shakhrai, Sergey Korolev, Sergey Tulykov, Hsin-Ying Lee

Phác thảo

Bài báo này đề xuất một phương pháp mới để tái tạo lưới 3D từ ảnh đa góc nhìn. Lấy cảm hứng từ các mô hình tái tạo quy mô lớn như LRM, phương pháp này sử dụng bộ tạo ba mặt phẳng dựa trên biến áp và mô hình Trường Rạng rỡ Thần kinh (NeRF) được huấn luyện trên ảnh đa góc nhìn. Chúng tôi phân tích và cải thiện những hạn chế của các kiến trúc LRM hiện có để nâng cao khả năng biểu diễn ảnh đa góc nhìn và cho phép huấn luyện hiệu quả về mặt tính toán. Hơn nữa, chúng tôi trích xuất lưới từ các trường NeRF theo cách có thể phân biệt được và tinh chỉnh mô hình NeRF thông qua kết xuất lưới để cải thiện khả năng tái tạo hình học và cho phép giám sát ở độ phân giải ảnh đầy đủ. Mặc dù phương pháp của chúng tôi đạt được hiệu suất tiên tiến, đạt PSNR là 28,67 trên tập dữ liệu Đối tượng được quét của Google (GSO), nhưng nó gặp khó khăn trong việc tái tạo các kết cấu phức tạp (ví dụ: văn bản, ảnh chân dung). Để giải quyết vấn đề này, chúng tôi giới thiệu một quy trình tăng cường kết cấu nhẹ, dành riêng cho từng trường hợp, giúp tinh chỉnh biểu diễn ba mặt phẳng và mô hình ước tính màu NeRF chỉ trong 4 giây, cải thiện PSNR lên 29,79 và tái tạo chính xác các kết cấu phức tạp. Hơn nữa, phương pháp của chúng tôi cho phép tạo ra nhiều ứng dụng hạ nguồn khác nhau, chẳng hạn như tạo 3D từ văn bản hoặc hình ảnh.

Takeaways, Limitations

Takeaways:
ĐạT được hiệu suất tiên tiến nhất trong việc tái tạo lưới 3D dựa trên hình ảnh đa góc nhìn (PSNR 29,79).
Nâng cao hiệu quả tính toán thông qua những cải tiến trong kiến trúc LRM.
Cải thiện khả năng tái tạo hình học thông qua trích xuất lưới có thể phân biệt được và tinh chỉnh NeRF.
Tái tạo chính xác các kết cấu phức tạp thông qua quy trình tinh chỉnh kết cấu nhẹ, cụ thể cho từng trường hợp.
Cung cấp nhiều khả năng ứng dụng tiếp theo, chẳng hạn như tạo hình 3D từ văn bản hoặc hình ảnh.
Limitations:
Nó vẫn gặp khó khăn trong việc tái tạo hoàn hảo các kết cấu phức tạp (văn bản, chân dung, v.v.).
Cần nghiên cứu thêm về hiệu suất tổng quát của phương pháp đề xuất.
👍