Bài báo này đề xuất một mô hình hiệu quả cho việc xác định nền tảng thị giác 3D. Các phương pháp hiện có sử dụng bộ mã hóa riêng biệt cho ảnh RGB, văn bản và đám mây điểm 3D, dẫn đến các mô hình lớn và phức tạp, đồng thời việc đào tạo không hiệu quả. Trong bài báo này, chúng tôi đề xuất một phương pháp tích hợp cả ba phương thức bằng cách tận dụng mạng đa phương thức 2D được đào tạo trước. Chúng tôi áp dụng tinh chỉnh dựa trên bộ điều hợp cho mô hình CLIP 2D để thích ứng hiệu quả với cài đặt ba phương thức, và mô-đun Phục hồi và Hợp nhất Tính năng 2D-3D Nhận biết Hình học (GARF) hợp nhất các tính năng hình học đa tỷ lệ của đám mây điểm và ảnh. Chúng tôi tích hợp các tính năng văn bản để hợp nhất phương thức cuối cùng, và một bộ giải mã đa phương thức cho phép hiểu sâu sắc các phương thức liên mô thức. Kết quả là, chúng tôi đạt được cải thiện hiệu suất 6,52% trong phát hiện 3D và cải thiện hiệu suất 6,25% trong việc xác định nền tảng thị giác 3D, đồng thời giảm số lượng tham số khoảng 58%.