[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Solo agregue geometría: detección 3D de vocabulario abierto sin gradientes y sin intervención humana

Created by
  • Haebom

Autor

Atharv Goel, Mehar Khurana

Describir

En este artículo, presentamos un método para la detección de objetos 3D sin anotaciones mediante un modelo de visión-lenguaje 2D entrenado con pares de imagen-texto a escala web. Este método supera las limitaciones de los conjuntos de datos de detección de objetos 3D existentes (clasificación de clases limitada y costosa anotación manual). Generamos propuestas de condiciones de texto utilizando el detector de visión-lenguaje 2D, las segmentamos mediante SAM y las proyectamos a 3D mediante geometría de cámara y pseudoprofundidad LiDAR o monocular. Inferimos cuadros delimitadores 3D sin entrenamiento mediante agrupamiento DBSCAN y una estrategia de dilatación geométrica basada en calibradores rotatorios. También construimos Pseudo-nuScenes, una variante del conjunto de datos nuScenes solo RGB con niebla añadida para simular las duras condiciones de entornos reales. Demostramos experimentalmente que alcanza un rendimiento de localización competitivo en múltiples configuraciones, incluyendo entradas basadas en LiDAR y RGB-D puro, y que no requiere entrenamiento y admite un vocabulario abierto.

Takeaways, Limitations

Takeaways:
Demostramos que la detección de objetos 3D con vocabulario abierto es posible sin entrenamiento utilizando un modelo basado en 2D.
Sugerimos la posibilidad de aumentar la escalabilidad de la detección de objetos 3D aprovechando datos a escala web.
Presentamos una metodología general aplicable tanto a entradas LiDAR como RGB-D.
Simule desafíos del mundo real y evalúe el rendimiento utilizando el conjunto de datos Pseudo-nuScenes.
Aumente la reproducibilidad y escalabilidad de la investigación haciendo que el código y los recursos sean abiertos.
Limitations:
Dado que depende del rendimiento del modelo 2D, una degradación en el rendimiento del modelo 2D puede afectar directamente el rendimiento de detección 3D.
Debido a que depende de la geometría de la cámara y de la información de profundidad, puede resultar difícil extraer información 3D precisa.
Es posible que el conjunto de datos Pseudo-nuScenes no refleje perfectamente el entorno real.
La precisión del cuadro delimitador 3D puede verse afectada por la precisión de la estrategia de inflado geométrico.
👍