Este artículo aborda la tarea de encontrar objetos en escenas 3D referenciadas por texto en lenguaje natural en 3D Visual Grounding (3DVG). Investigaciones recientes se han centrado en la extensión de los conjuntos de datos 3DVG basados en LLM, pero estos conjuntos de datos presentan limitaciones, ya que no abarcan todos los tipos de preguntas que pueden expresarse en inglés. Por lo tanto, este artículo propone un marco para el análisis lingüístico de las indicaciones 3DVG e introduce ViGiL3D, un conjunto de datos de diagnóstico para evaluar métodos de base visual para diversos patrones lingüísticos. Evaluamos los métodos 3DVG de vocabulario abierto existentes y demostramos que aún carecen de la capacidad de comprender e identificar objetivos en preguntas más difíciles y fuera de distribución para aplicaciones prácticas.