Cet article propose un modèle efficace pour l'ancrage visuel 3D. Les méthodes existantes utilisent des encodeurs distincts pour les images RVB, le texte et les nuages de points 3D, ce qui produit des modèles volumineux et complexes et un apprentissage inefficace. Dans cet article, nous proposons une méthode qui intègre les trois modalités en exploitant un réseau multimodal 2D pré-entraîné. Nous appliquons un réglage fin basé sur un adaptateur au modèle CLIP 2D pour une adaptation efficace au contexte trimodal, et le module de récupération et de fusion de caractéristiques 2D-3D géométriques (GARF) fusionne les caractéristiques géométriques multi-échelles des nuages de points et des images. Nous intégrons les caractéristiques textuelles pour la fusion finale des modalités, et un décodeur multimodal permet une compréhension intermodale approfondie. Ainsi, nous obtenons une amélioration des performances de 6,52 % en détection 3D et de 6,25 % en ancrage visuel 3D, tout en réduisant le nombre de paramètres d'environ 58 %.