Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Aprendiendo simuladores 3D-gaussianos a partir de videos RGB

Created by
  • Haebom

Autor

Mikel Zhobro, Andreas Ren y Geist, Georg Martius

Describir

Este artículo propone un novedoso simulador 3D basado en aprendizaje, 3DGSim. 3DGSim aprende directamente las interacciones físicas de vídeo RGB multivista, lo que permite simulaciones realistas sin necesidad de información privilegiada como la información de profundidad o el seguimiento de partículas. Aprende una representación de partículas latentes de una escena 3D mediante MVSplat, predice la dinámica de partículas con el Transformador de Puntos, realiza agregación temporal consistente con el módulo de Fusión Temporal y genera nuevas representaciones de vistas mediante Dispersión Gaussiana. Al aprender conjuntamente la representación inversa y la predicción de dinámicas, integramos propiedades físicas en características latentes puntuales, capturando una amplia gama de comportamientos físicos (desde rígidos hasta elásticos, incluyendo dinámicas similares a las de la tela y condiciones de contorno) y efectos de iluminación realistas, y generalizamos a interacciones multicuerpo nunca antes vistas y nuevas manipulaciones de escenas.

Takeaways, Limitations

Takeaways:
Presentamos un método novedoso para aprender interacciones físicas directamente a partir de videos RGB de múltiples vistas sin información privilegiada.
Captura una amplia gama de comportamientos físicos, desde cuerpos rígidos hasta cuerpos elásticos y similares a telas, y efectos de iluminación realistas.
Rendimiento de generalización mejorado para interacciones multicuerpo nunca antes vistas y edición de escenas novedosas.
Integración de reconstrucción de escenas 3D, predicción de dinámica de partículas y síntesis de video en un único marco de extremo a extremo.
Limitations:
Ausencia de análisis específico del coste computacional del modelo propuesto y del tamaño de los datos de entrenamiento.
Limitaciones del rendimiento de generalización para diversos fenómenos físicos y la necesidad de experimentos adicionales
Se necesita una mayor verificación de la aplicabilidad y robustez a situaciones complejas del mundo real.
👍