Este artículo propone un modelo eficiente para la base visual 3D. Los métodos existentes utilizan codificadores independientes para imágenes RGB, texto y nubes de puntos 3D, lo que resulta en modelos grandes y complejos, así como en un entrenamiento ineficiente. En este artículo, proponemos un método que integra las tres modalidades aprovechando una red multimodal 2D preentrenada. Aplicamos un ajuste fino basado en adaptadores al modelo CLIP 2D para adaptarlo eficazmente al entorno trimodal, y el módulo de Recuperación y Fusión de Características 2D-3D con Conciencia Geométrica (GARF) fusiona las características geométricas multiescala de las nubes de puntos y las imágenes. Integramos las características del texto para la fusión final de modalidades, y un decodificador multimodal permite una comprensión intermodal profunda. Como resultado, logramos una mejora del rendimiento del 6,52 % en la detección 3D y del 6,25 % en la base visual 3D, a la vez que reducimos el número de parámetros en aproximadamente un 58 %.