Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

ViGiL3D: Un conjunto de datos lingüísticamente diverso para la base visual 3D

Created by
  • Haebom

Autor

Austin T. Wang, ZeMing Gong, Ángel X. chang

Describir

Este artículo aborda la tarea de encontrar objetos en escenas 3D referenciadas por texto en lenguaje natural en 3D Visual Grounding (3DVG). Investigaciones recientes se han centrado en la extensión de los conjuntos de datos 3DVG basados ​​en LLM, pero estos conjuntos de datos presentan limitaciones, ya que no abarcan todos los tipos de preguntas que pueden expresarse en inglés. Por lo tanto, este artículo propone un marco para el análisis lingüístico de las indicaciones 3DVG e introduce ViGiL3D, un conjunto de datos de diagnóstico para evaluar métodos de base visual para diversos patrones lingüísticos. Evaluamos los métodos 3DVG de vocabulario abierto existentes y demostramos que aún carecen de la capacidad de comprender e identificar objetivos en preguntas más difíciles y fuera de distribución para aplicaciones prácticas.

Takeaways, Limitations

Takeaways: Presentamos ViGiL3D, un conjunto de datos 3DVG que contiene diversos patrones de lenguaje, para revelar las limitaciones de los métodos existentes y sugerir futuras líneas de investigación. Establecemos criterios de evaluación del rendimiento de los modelos 3DVG para preguntas más diversas y complejas, más cercanas a las aplicaciones del mundo real.
Limitations: Es posible que el conjunto de datos ViGiL3D no cubra a la perfección todos los posibles patrones de lenguaje. Se requiere más investigación sobre el rendimiento de generalización del marco y el conjunto de datos presentados. Si bien muestra claramente las limitaciones de la aplicabilidad real de los métodos 3DVG actuales, carece de sugerencias específicas para su mejora.
👍