Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

SPGrasp: Síntesis de comprensión espaciotemporal basada en indicaciones en escenas dinámicas

작성자
  • Haebom

Autor

Yunpeng Mei, Hongjie Cao, Yinqiu Xia, Wei Xiao, Zhaohan Feng, Gang Wang, Jie Chen

Describir

SPGrasp es un novedoso marco para la síntesis de agarre interactivo en tiempo real para objetos dinámicos. Para abordar los desafíos de los métodos existentes, que no logran simultáneamente inferencia de baja latencia y prontitud, presentamos un método que extiende SAMv2 para la estimación de agarre de transmisiones de video. Al incorporar indicaciones de usuario y contexto espaciotemporal, permitimos la interacción en tiempo real con una latencia de extremo a extremo de hasta 59 ms, a la vez que garantizamos la consistencia temporal de los objetos dinámicos. Logramos una alta precisión (90,6 % y 93,8 %, respectivamente) en los conjuntos de datos OCID y Jacquard, y en el conjunto de datos GraspNet-1Billion, alcanzamos una precisión del 92,0 % con una latencia de fotograma de 73,1 ms, una mejora del 58,5 % con respecto al modelo de vanguardia anterior. En experimentos con 13 objetos en movimiento del mundo real, logramos una tasa de éxito del 94,8 %, lo que demuestra que nuestro enfoque aborda eficazmente el equilibrio entre latencia e interactividad en la síntesis de agarre dinámico.

Takeaways, Limitations

Takeaways:
Amplía SAMv2 para permitir la síntesis de agarre interactiva en tiempo real para objetos dinámicos.
Consiga una baja latencia (hasta 59 ms) y una alta precisión integrando indicaciones para el usuario y contexto espaciotemporal.
Se verificó experimentalmente una mejora en la velocidad y la precisión en comparación con los modelos de alto rendimiento existentes.
Practicidad comprobada mediante una alta tasa de éxito (94,8%) en entornos reales.
Limitations:
Dado que este es un resultado de evaluación de desempeño para un conjunto de datos específico, se necesita más investigación para determinar el desempeño de generalización en otros conjuntos de datos o entornos.
La robustez ante diversas situaciones en entornos reales (por ejemplo, cambios de iluminación, movimientos de objetos complejos) requiere más investigación.
Con un tiempo de procesamiento de 73,1 ms por fotograma, puede que no sea suficiente para tareas que requieran movimientos extremadamente rápidos.
👍