En este artículo, presentamos un método para la detección de objetos 3D sin anotaciones mediante un modelo de visión-lenguaje 2D entrenado con pares de imagen-texto a escala web. Este método supera las limitaciones de los conjuntos de datos de detección de objetos 3D existentes (clasificación de clases limitada y costosa anotación manual). Generamos propuestas de condiciones de texto utilizando el detector de visión-lenguaje 2D, las segmentamos mediante SAM y las proyectamos a 3D mediante geometría de cámara y pseudoprofundidad LiDAR o monocular. Inferimos cuadros delimitadores 3D sin entrenamiento mediante agrupamiento DBSCAN y una estrategia de dilatación geométrica basada en calibradores rotatorios. También construimos Pseudo-nuScenes, una variante del conjunto de datos nuScenes solo RGB con niebla añadida para simular las duras condiciones de entornos reales. Demostramos experimentalmente que alcanza un rendimiento de localización competitivo en múltiples configuraciones, incluyendo entradas basadas en LiDAR y RGB-D puro, y que no requiere entrenamiento y admite un vocabulario abierto.