Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo. La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro. Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.
A diferencia de los métodos de aprendizaje supervisado que logran alta precisión en entornos limitados, este artículo se centra en la base visual 3D de disparo cero (3DVG), que resulta ventajosa para aplicaciones del mundo real. Para abordar las limitaciones de inferencia espacial de los métodos de disparo cero existentes y los problemas de omisión de contexto o degradación de detalles, proponemos SeqVLM, un novedoso marco de trabajo 3DVG de disparo cero que aprovecha imágenes de escenas del mundo real de múltiples vistas e información espacial. SeqVLM genera propuestas de instancias 3D a través de una red de segmentación semántica 3D y las refina mediante filtrado semántico, reteniendo solo los candidatos semánticamente relevantes. Una estrategia de proyección multivista basada en propuestas proyecta propuestas de candidatos sobre secuencias de imágenes de escenas del mundo real, preservando las relaciones espaciales y los detalles contextuales durante el proceso de conversión de nube de puntos 3D a imagen. Además, para reducir la carga computacional de VLM, implementamos un mecanismo de programación dinámica que procesa repetidamente las solicitudes de consulta de secuencia. Este mecanismo de programación dinámica aprovecha las capacidades de inferencia intermodal de VLM para identificar objetos especificados en texto. Los resultados experimentales de las pruebas de referencia ScanRefer y Nr3D demuestran un rendimiento de vanguardia, con puntuaciones Acc@0.25 del 55,6 % y el 53,2 %, respectivamente, que superan en un 4,0 % y un 5,2 % a los métodos de disparo cero existentes. El código está disponible en https://github.com/JiawLin/SeqVLM .
Takeaways, Limitations
•
Takeaways:
◦
Mejora del rendimiento 3DVG de disparo cero y aumento de la generalización aprovechando imágenes de múltiples vistas e información espacial.
◦
Reducción de la carga computacional de VLM mediante mecanismos de programación dinámica.
◦
Conseguir un rendimiento de vanguardia en los benchmarks ScanRefer y Nr3D.
◦
Mayor aplicabilidad en el mundo real.
•
Limitations:
◦
El rendimiento del método propuesto puede depender del rendimiento de la red de segmentación semántica 3D y del VLM utilizado.
◦
Posible aumento de los costos computacionales debido al procesamiento de imágenes de múltiples vistas.
◦
Puede existir una posibilidad de degradación del rendimiento para ciertos tipos de escenas u objetos.
◦
Se necesita más investigación sobre el rendimiento de la generalización en diversos entornos.