Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

CountingFruit: Conteo de frutas en 3D guiado por lenguaje con salpicadura gaussiana semántica

Created by
  • Haebom

Autor

Fengze Li, Yangle Liu, Jieming Ma, Hai-Ning Liang, Yaochun Shen, Huangxiang Li, Zhijing Wu

Describir

FruitLangGS es un marco de conteo de frutas 3D guiado por lenguaje que utiliza una secuencia de dispersión gaussiana densa adaptativa con poda sensible al radio y rasterización basada en mosaicos para reconstruir escenas a escala de huerto. A diferencia de las secuencias existentes que se basan en la segmentación 2D multivista y el muestreo de volumen denso, FruitLangGS filtra los vectores semánticos comprimidos y alineados con CLIP contenidos en cada gaussiana mediante un mecanismo de similitud de coseno de doble umbral para recuperar las gaussianas relevantes para el mensaje objetivo sin necesidad de reentrenamiento ni máscaras de espacio de imagen, eliminando distractores comunes (p. ej., hojas). Las gaussianas seleccionadas se muestrean de una nube de puntos densa y se agrupan geométricamente para estimar las instancias de fruta, y son robustas ante oclusiones severas y variaciones del punto de vista. Experimentos con nueve conjuntos de datos diferentes a escala de huerto demuestran que FruitLangGS supera consistentemente a los flujos de trabajo existentes en la recuperación del conteo de instancias, evita errores de fusión de segmentación multivista y alcanza una recuperación de hasta el 99,7 % en el conjunto de datos de huerto Pfuji-Size_Orch2018. Estudios adicionales de ablación confirman que las incrustaciones semánticas condicionales al lenguaje y el filtrado de indicaciones de doble umbral son esenciales para suprimir distractores y mejorar la precisión del conteo en condiciones de oclusión severa. Más allá del conteo de frutas, el mismo marco permite la recuperación semántica 3D basada en indicaciones sin necesidad de reentrenamiento, lo que destaca el potencial del reconocimiento 3D guiado por el lenguaje para la comprensión escalable de escenas agrícolas.

Takeaways, Limitations

Takeaways:
Una solución eficiente y precisa al problema del conteo 3D de frutas en huertos.
Presentamos un enfoque novedoso para evitar errores de fusión de múltiples vistas y reducir los costos computacionales.
Permite la recuperación semántica 3D basada en indicaciones a través de la inducción del lenguaje.
Mantiene una alta precisión incluso en situaciones de oclusión severa.
Presentando nuevas posibilidades para comprender escenas agrícolas escalables.
Limitations:
Se necesitan más investigaciones sobre el rendimiento de la generalización, ya que la evaluación del rendimiento está sesgada hacia un conjunto de datos de huerto específico.
Es necesario verificar la aplicabilidad a varios tipos de frutas y entornos de huertos.
Las limitaciones del modelo CLIP debido a la dependencia del modelo CLIP también pueden afectar a FruitLangGS.
Es necesaria una consideración adicional con respecto a la complejidad computacional de los métodos de reconstrucción 3D basados en salpicaduras gaussianas.
👍